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Dynamische Sequenzrerung durch Hybridisierung 

Beschreibung 

Die Erfindung betrifft ein Verfahren zur Sequenzierung von Nukleinsauren 
unter Verwendung von Tragerchips, die aus Nukleotiden oder/und 
Nukleotideanaloga aufgebaute Polymersonden enthalten und eine 
spezifische Bindung mit in einer Probe vorhandenen Nukleinsauren eriauben. 
Das Verfahren wird dynamisch in mehreren Zyklen durchgefuhrt, wobei die 
aus einem vorhergehenden Zyklus gewonnenen Sequenzinformationen zur 
Modfizierung tragergebundener Sonden im nachfolgenden Zyklus genutzt 
werden. 

1. Einleitung 

Fur die Grundlagenforschung, die Medizin, die Biotechnologie sowie weitere 
wissenschaftliche Disziplinen ist die Erfassung biologisch relevanter 
Information in definiertem Untersuchungsmaterial von herausragender 
Bedeutung. Zumeist steht dabei die genetische Information im Mittelpunkt 
des Interesses. Diese genetische Information besteht in einer enormen 
Vielfalt unterschiedlicher Nukleinsauresequenzen, der DNA. Die Nutzung 
dieser Information im biologischen Organismus fuhrt uber die Herstellung 
von Abschriften der DNA in RNA meist zur Synthese von Proteinen. 

Um diese Wirkprinzipien der Natur besser verstehen zu konnen, ist eine 
effiziente und sichere Entschlusselung von DNA-Sequenzen notwendig. Die 
Detektion von Nukleinsauren und die Bestimmung der Abfolge der vier 
Basen in der Kette der Nukleotide, die generell als Sequenzierung bezeichnet 
wird, iiefert wertvolle Daten fur Forschung und angewandte Medizin. In der 
Medizin konnte in stark zunehmendem MaBe durch die in vitro-Diagnostik 
(IVD) ein Instrumentarium zur Bestimmung wichtiger Patientenparameter 
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entwickelt und dem behandelnden Arzt zur Verfugung gestellt werden. Fur 
viele Erkrankungen ware eine Diagnose zu einem ausreichend fruhen 
Zeitpunkt ohne dieses Instrumentarium nicht moglich. Hier hat sich die 
genetische Analyse als wichtiges neues Verfahren etabliert. 

5 

In enger Verzahnung von Grundlagenforschung und klinischer Forschung 
konnten die molekularen Ursachen und {pathologischen) Zusammenhange 
einiger Krankheitsbilder bis auf die Ebene der genetischen information 
zuruckverfolgt und aufgeklart werden. Diese wissenschaftliche 
0 Vorgehensweise steht jedoch noch am Anfang ihrer Entwicklung und gerade 
fur ihre Umsetzung im Rahmen von Therapiestrategien bedarf es stark 
intensivierter Anstrengungen. Insgesamt haben die Genomwissenschaften 
und die damit im Zusammenhang stehende Nukleinsaureanalytik sowohl 
zum Verstandnis der molekularen Grundlagen des Lebens als auch zur 
5 Aufklarung sehr komplexer Krankheitsbilder und pathologischer Vorgange 
wichtige Beitrage geleistet. 

2. Stand der Technik 

Genetische Information wird durch Analyse von Nukleinsauren, meist in 
Form von DNA, gewonnen. Es gibt drei wesentliche Techniken fur die 
Analyse von DNA. Die erste wird als Polymerase-Kettenreaktion (PGR) 
bezeichnet. Diese und verwandte Methoden dienen der selektiven 
enzymgestiitzen Vervielfaltigung (Amplifikation) von DNA, indem kurze 
flankierende DNA Strange mit bekannter Sequenz genutzt werden, um die 
enzymatische Synthese des dazwischen liegenden Bereiches zu starten. 
Dabei mufS die Sequenz dieses Bereiches nicht im Detail bekannt sein. Der 
Mechanismus eriaubt damit anhand eines kleinen Ausschnittes an 
Information (den flankierenden DNA Strangen) die selektive Vervielfaltigung 
eines bestimmten DNA Abschnittes, so dafS dieser vervielfaltigte DNA 
Strang in grofSer Menge fur weitere Arbeiten und Analysen zur Verfugung 
steht. 
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Als zweite Basistechnik wird die Elektrophorese verwendet, Dabei handelt 
es sich um eine Technik zur Trennung von DNA Molekulen anhand ihrer 
GrolSe. Die Trennung erfolgt in einem elektrischen Feld, das die DNA 
Molekule zur Wanderung zwingt. Durch geeignete Medien, wie z.B. 

5 vernetzte Gele, wird die Bewegung im elektrischen Feld abhangig von der 
MolekulgroBe erschwert, so dalS kleine Molekule und damit kurzere DNA 
Fragmente schneller wandern als langere. Elektrophorese ist die wichtigste 
etablierte Methode fur die DNA Sequenzierung und daruber hinaus fur viele 
Verfahren zur Reinigung und Analyse von DNA. Das verbreitetste Verfahren 

0 ist die Flachbett-Gelelektrophorese, die im Bereich der 
Hochdurchsatzsequenzierung allerdings zunehmend von der Kapillar- 
Gelelektrophorese verdrangt wird. 

Bel der dritten Methode handelt es sich um die Analyse von Nukleinsauren 
5 durch sogenannte Hybridisierung. Hierbei wird eine DNA-Sonde mit 
bekannter Sequenz verwendet, um eine komplementare Nukleinsaure zu 
identifizieren, meistens vor dem Hintergrund eines komplexen Gemisches 
von sehr vielen DNA- oder RNA-Molekulen. Die passenden Strange binden 
sich stabil und sehr spezifisch aneinander. 

Die drei Basistechniken kommen haufig in Kombination vor, indem z.B. das 
Probenmaterial fur ein Hybridisierungsexperiment vorher selektiv durch PGR 
vervielfaltigt wird. 

Bei der Sequenzanalyse auf einem DNA-Tragerchip nutzt man ebenfalls das 
Prinzip der Hybridisierung von zueinander passenden DNA-Strangen aus. Die 
Entwicklung von DNA-Tragerchips oder DNA-Arrays bedeutet eine extreme 
Parallelisierung und Miniaturisierung des Formats von Hybridisierungs- 
experimenten. DNA in einer Probe kann nur an den Stellen an die auf dem 
Trager fixierte DNA binden, an denen die Sequenz der beiden DNA-Strange 
ubereinstimmt. Mit Hilfe der fixierten DNA auf dem Trager kann selektiv die 
komplementare DNA in der Probe nachgewiesen werden. Dadurch werden 
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beispielsweise Mutationen im Probenmaterial durch das Muster erkannt, das 
nach der Hybridisierung auf dem Trager entsteht. 

Der wesentliche Engpass bei der Bearbeitung von sehr Komplexen 
5 genetischen Informationen mit einem solchen Trager ist der Zugriff auf diese 
Information durch die begrenzte Zahl von MeSplatzen auf dem Trager. Ein 
solcher MelSplatz ist ein Reaktionsbereich, in dem bei der Herstellung des 
Trager DNA-Molekule als spezifische Reaktionspartner, sog. Sonden, 
synthetisiert werden. 

10 

Fur einen groSeren Datendurchsatz gibt es prinzipiell zwei Moglichkeiten: 
Die eine besteht darin, die Anzahl der MefSplatze auf einem Reaktionstrager 
zu erhohen. Die zweite beruht darauf, die Anzahl der unterschiedlichen 
Sonden zu steigern, die das System pro Zeit (und pro eingesetztem Geld) 
15 erzeugen und fur Hybridisierung bereitstellen kann. Die zweite Moglichkeit 
hat etwas mit der Anzahl an Varianten zu tun, die im System generiert und 
fur die Analyse zur Verfugung gesteilt werden (Datendurchsatz). 

Bei dem Begriff genetische Information muss unterschieden werden 
20 zwischen unbekannten Sequenzen, die zuTn ersten mal dekodiert werden 
(dies wird im allgemeinen unter dem Begriff Sequenzieren verstanden, auch 
de novo Sequenzierung) und bekannten Sequenzen, die aus anderen 
Grunden als dem erstmaligen Dekodieren identifiziert werden sollen. Solche 
anderen Grunde sind beispielsweise die Untersuchung der Expression von 
25 Genen oder die Verifizierung der Sequenz eines interessierenden DNA 
Abschnittes bei einem Individuum. Dies kann z.B. geschehen, um die 
individuelle Sequenz mit einem Standard zu vergleichen, wie bei der 
Mutationsanalyse von Krebszellen und der Typisierung von HIV Viren. 

30 Fur die de novo Sequenzierung werden bislang fast ausschlieSlich 
eiektrophoretische Methoden verwendet. Am schnellsten ist die 
Kapillarelektrophorese, 
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Trager spielen fur die denovo Sequenzierung bislang kaum eine Rolle. Dies 
liegt an prinzipiellen Limitationen: fiir den Informationsgewinn durch 
Sequenzvergleich mussen Sonden auf dem Trager bereitgestellt werden. Bei 
der Bearbeitung von unbekanntem Material braucht man sehr viele 
5 unterschiedliche Sonden (Varianten). Kein bislang bekanntes Verfahren ist 
in der Lage, die notwendigen Varianten-Zahlen fur ein effektives 
Sequenzieren durch Sequenzvergleich von sehr groBen DNA Mengen zu 
generieren. Solche sehr groSen DNA Mengen liegen z.B. bei der 
Sequenzbestimmung von ganzen Genomen vor, 

0 

Bislang sind im wesentlichen zwei Verfahren zur Herstellung von Tragern 
bekannt. Beim ersten Herstellungsverfahren werden die fertigen Sonden 
einzein entweder in einem Synthesizer (chemisch) oder aus isolierter DNA 
(enzymatisch) hergestellt und diese dann in Form winziger Tropfen auf die 

5 Oberflache des Chips aufgebracht, und zwar jede einzelne Sorte an Sonden 
auf einen einzelnen MefSplatz. Das verbreitetste Verfahren hierzu leitet sich 
aus der Tintenstrahidrucktechnik ab, daher werden diese Verfahren unter 
dem Oberbegriff Spotting zusammengefaBt. Ebenfalls weit verbreitet sind 
Verfahren mit Nadeln. Nur durch die Mikro-Positionierung von Druckkopf 

0 Oder X^Jadei kann spater ein Signal auf dem Chip einer bestimmten Sonde 
zugeordnet werden (Array mit Zeilen und Spalten). Entsprechend genau 
mussen die Spotting-Gerate arbeiten. 

Bei der zweiten Methode werden die DNA Sonden direkt auf dem Chip 
5 hergestellt und zwar durch ortsspezifische Chemie (in situ Synthese), Dazu 
gibt es derzeit zwei Verfahren. 

Das eine arbeitet mit den oben beschriebenen Spotting-Geraten, jedoch mit 
dem Unterschied, dalS die winzigen Tropfen entsprechende 
0 Synthesechemikalien enthalten, so dafJ durch die Mikro-Positionierung dieser 
Chemikalien die ortsaufgeloste Chemie betrieben werden kann. Die 
Technologie eriaubt eine beliebige Programmierung der Sequenz der 
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entstehenden Sonden. Allerdings ist bisher der Durchsatz, das heifSt die 
Anzahl der Sonden pro Zeit, nicht wirklich hoch genug, um groSe Mengen 
genetischer Information umzusetzen. 

Sehr viel mehr MeSplatze pro Zeit lassen sich mit der zweiten Methode 
herstellen: die parallele Synthese der Sonden mit einer lichtabhangigen 
Chemie. Damit wurden bereits uber 1 00.000 MefSplatze pro Chip in wenigen 
Stunden synthetisiert. 

Das Verfahren wird mit zwei technischen Losungen fur die Belichtung 
betrieben. Die eine verwendet photolithographische Masken und erzeugt 
durch die hoch entwickelte Optik sehr viele MeBplatze auf dem DNA-Trager. 
Allerdings ist die Wahl der Sondensequenz sehr limitiert, da entsprechende 
Masken hergestellt werden mussen. Fiir das erfindungsgemaSe Verfahren 
ist diese Herstellungsmethode daher wenig geeignet. Wesentlich 
aussichtsreicher sind Verfahren mit frei programmierbaren 
Sondensequenzendie auf Basis entsprechend steuerbarer Lichtquellen 
arbeiten. Solche Herstellungsverfahren fur Sonden auf einem Trager sind 
u.a. in den Patentanmeldungen DE 198 39 254.0, DE 198 39 256.7, DE 
1 99 07 080.6, DE 1 99 24 327.1 , DE 1 99 40 749.5, PCT/EP99/0631 6 und 
PCT/EP99/06317 beschrieben. 

Zusammenfassend laSt sich sagen, dalS mit den bisher etablierten Techniken 
zur Bearbeitung groBerer Mengen genetischer Information mit ganz oder 
teil weise unbekannter Zusammensetzung, namlich Elektrophoreseverf ahren 
und Biochip-Tragern, eine Limitation des Durchsatzes gegeben ist. 
Hochdurchsatzprojekte fiir die Neusequenzierung sind bisher auf GroBen- 
sortierung mit Elektrophorese angewiesen (u.a. das Human Genom Projekt 
HUGO). Hier sind zwar Verbesserungen durch Miniaturisierung und 
Paralielisierung zu erwarten, aber keine Durchbruche, da die Technik an sich 
nicht verandert werden kann. Elektrophorese kann die meisten 
Anwendungen von Biochips, wie z.B. Expressions-Muster oder Mutations- 
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Screening, nicht oder nur sehr viel langsamer leisten. Die bisher bekannten 
Biochips sind ihrerseits fiir Neusequenzierung ungeeignet, der Schwerpunkt 
liegt auf der hochparallelen Bearbeitung von Material auf Basis bekannter 
Sequenzen (u.a. in Form von synthetischen Oligonukleotiden als Sonden). 

5 

Beide Formate haben einen limitierten Durchsatz an genetischer Information. 
Urn diesen Durchsatz zu erhohen mussen neue Ansatze entwickelt werden 
Das erfindungsgemaSe Verfahren ist ein solcher Ansatz. 

0 3. Gegenstand der Erfindung 

Die Erfindung betrifft ein Verfahren zur Sequenzierung von Nukleinsauren 
umfassend die Schritte: 

(a) Durchfuhren eines ersten Hybridisierungszyklus umfassend 

(i) Bereitstellen eines Tragers mit einer Oberflache, die an einer 
Vielzahl von vorbestimmten Bereichen immobilisierte 
Hybridisierungssonden enthalt, wobei die Hybridisierungs- 
sonden in einzelnen Bereichen jeweils eine unterschiedliche 
Basenfolge mit einer vorbestimmten Lange aufweisen, 

(ii) Inkontaktbringen einer Probe, die zu sequenzierende 
Nukleinsauren enthalt, mit dem Trager unter Bedingungen, bei 
denen eine Hybridisierung zwischen den zu sequenzierenden 
Nukleinsauren und dazu komplementaren Sonden auf dem 
Trager erfolgen kann, und 

(iii) Identifizieren der vorbestimmten Bereiche auf dem Trager, an 
denen eine Hybridisierung in Schritt (ii) erfolgt ist, 

(b) Durchfuhren eines nachfolgenden Hybridisierungszyklus umfassend: 
(i) Bereitstellen eines weiteren Tragers mit einer Oberflache, die 

an eine Vielzahl von vorbestimmten Bereichen immobilisierte 
Hybridisierungssonden enthalt, wobei die Hybridisierungs- 
sonden in einzelnen Bereichen jeweils eine unterschiedliche 
Basenfolge mit einer vorbestimmten Lange aufweisen, wobei 
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fur den weiteren Trager Hybridisierungssonden mit einer 
Basenfolge ausgewahit werden, bei denen im vorhergehenden 
Zyklus eine Hybridisierung beobachtet worden ist, und wobei 
die ausgewahlten Hybridisierungssonden urn mindestens ein 
5 Nukleotid gegeniiber einem vorhergehenden Zyklus verlangert 

werden, 

(ii) Wiederholen von Schritt (a) (i) mit dem weiteren Trager, und 

(iii) Wiederholen von Schritt (a) (iii) mit dem weiteren Trager, und 
(c) gegebenenfalls Durchfuhren von weiteren nachfolgenden 

Hybridisierungszyklen jeweils mit Auswahl und Verlangerung der 
Hybridisierungssonden gema(5 Schritt (b) (i), bis eine ausreichende 
Information uber die zu sequenzierenden Nukleinsauren vorliegt. 

Das hier beschriebene Verfahren zur Sequenzierung von Nukleinsauren 
durch Hybridisierung eriaubt mit Hilfe eines iterativen, dynamischen Auf baus 
aller dafur notwendigen, spezifischen Sonden die Sequenzierung von 
Probenmaterial (auch viel groBer 10 kBp) mit unbekannter Sequenz. Die 
Sequenzierung umfaBt sowohl eine Fragmentanalyse (einige Dutzend bis 
100 Bp) als auch die Kartierung der Fragmente innerhalb der 
Ausgangssequenz. 



Unter Trager oder Reaktionstrager sollen in diesem Zusammenhang sowohl 
offene als auch geschlossene Trager verstanden werden. Offene Trager 
konnen planar (z.B, Labordeckglas), aber auch speziell geformt {z,B, 
schalenformig) sein. Bei alien offenen Tragern ist als Oberflache eine Flache 
auf der AufSenseite des Tragers zu verstehen. Geschlossene Trager haben 
eine innenliegende Struktur, die beispielsweise Mikrokanale, Reaktionsraume 
oder/und Kapillaren umfalSt. Hier sind als Oberflachen des Tragers die 
Oberflachen der zwei- oder dreidimensional ausgepragten Mikrostruktur im 
Inneren des Tragers zu verstehen. Natiirlich ist auch die Kombination von 
innenliegenden geschlossenen und auBenliegenden offenen Oberflachen in 
einem Trager denkbar, Als Materialien fur Trager kommen beispielweise Glas 
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wie Pyrax, Ubk7, B270, Foturan, Silizium und Siliziumderivate, Kunststoffe 
wie PVC, COC Oder Teflon sowie Kalrez zum Einsatz. 

Das in dem Verfahren benotigte Array muS nicht zwangslaufig auf einen 
Trager begranzt sein, es ist durchaus moglich ein "virtuelles Array" auf 
mehrere Trager zu verteilen, Bei Bedarf kann dadurch die Stellplatzanzahl 
vergroRert werden. 

In einem geschlossenen System, das sowohl die Probenvorbereitung, die 
Fragmentierung und die Kartierung des Probenmaterials enthalten kann, 
siehe z.B. DE 199 24 327.1, DE 199 40 749.5 und PCT/EP99/0631 7, 
erganzen und bedingen sich Datenerzeugung und Auswertung gegenseitig 
und bilden in ihrer Gesanntheit eine lernende Einheit. So werden z. B. mit 
Hilfe der ausgewerteten Daten eines Arrays neue Sondensequenzen 
bestimmt, die dann auf einem neuen Array synthetisiert werden. Dies erfolgt 
solange systematisch, bis die biologische Vielfalt, welche nur eine sehr 
geringen Teil der theoretisch Moglichen Variationen darstellt, schrittweise 
ganzheitlich erfaftt ist. 

Bei d^m erfindungsgemaSen Verfahren werden Sonden auf bzw. in dem 
Trager flexibel hergestellt, so daft ein Informationsfluft moglich wird. Jede 
neue Synthese des Arrays in aufeinanderfolgenden Zyklen kann die 
Ergebnisse eines vorangegangenen Experimentes berucksichtigen. Durch 
geeignete Wahl der Hybridisierungssonden, die Oligonukleotide, aber auch 
Nukleinsaureanaloga wie peptidische Nukleinsauren sein konnen, in Bezug 
auf ihre Lange, Sequenz und Verteilung auf dem Reaktionstrager und durch 
eine Ruckkopplung des Systems mit integrierter Signalauswertung wird ein 
effizientes Prozessieren von genetischer Information moglich. 

Weiterhin betrifft die Erfindung einen Trager fur die Sequenzierung von 
Nukleonsauren mit einer Oberflache, die an einer Vieizahl von 
vorbestimmten Bereichen immobilisierte Hybridisierungssonden enthalt, 
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wobei die Hybndisierungssonden in einzelnen Bereichen jeweils eine 
unterschiedliche Basenfolge mit einer vorbestimmten Lange aufweisen, 
wobei die Hybridisierungssonden neben variablen Abschnitten einen oder 
mehrere fur zumindest einen Teil der Sonden festgewahlte Abschnitte 
aufweisen konnen. 

Das Verfahren und der Trager konnen fur die Sequenzbestinnmung von 
Genomen, Chromosonnen, Transkriptonnen sowie zur Identifizierung von 
Polynnorphismen in Nukleinsauresequenzen, z.B. auf Ebene einzelner 
Individuen eingesetzt werden. 

Die Bindung der Nukleinsauren an Hybridisierungssonden an den jeweiligen 
Teilbereichen auf der Trageroberflache wird vorzugsweise uber 
Markierungsgruppen nachgewiesen. Die Markierungsgruppen konnen dabei 
direkt oder indirekt an die zu sequenzierende Nukleinsaure gebunden 
werden. Vorzugsweise werden Markierungsgruppen verwendet, die optisch 
detektierbar sind, z.B. durch Fluoreszenz, Lichtbrechung, Lumineszenz oder 
Absorption. Bevorzugte Beispiele fur Markierungsgruppen sind 
fluoreszierende Gruppen oder optisch nachweisbare Metallpartikel, z.B. 
Goldpartikel. 

4. Ausfiihrliche Beschreibung der Erfindung 

4.1 (Zahlen-)Verhaltnisse 

Zu Beginn werden einige Verhaltnisse erlautert, die im folgenden eine 
wichtige Rolle spielen: 

In jeder, aus m Nukleotiden bestehenden Sequenz konnen maximal m-n + 1 
Teilsequenzen der Lange n auftreten. Dies bedeutet, dafS fur jede 
Gesamtsequenzlange m eine spezifische Sequenzlange n existiert, fur die die 
Anzahl aller moglichen /7-mere (4") die Anzahl m-n + 1 der in der 
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Gesamtsequenz moglichen Teilsequenzen der Lange n iiberschreitet. Im 
menschlichen Genom B., das aus ca. 3,2 x 10^ Nukieotiden besteht, 
konnen somit maximal ca. 3,2 x 10^ Sequenzabschnitte einer beliebigen 
Lange n auftreten. Wahit man n = 1 6, so ist die Anzahl aller 1 6-mere mit 
deutlich grofter als die maximale Anzahl der im menschlichen Genom 
auftretenden 1 6-mere. Es konnen also auf keinen Fall alle 1 6-mere und 
somit auch niemals alle langeren (n + ^)-, (/7 + 2)-mere, usw. im 
menschlichen Genom vorkommen. 

Tabelle 1 zeigt das Verhaltnis zwischen der Sequenzabschnittslange n, der 
Sequenzlange m und der in der Sequenz der Lange m enthaltenen 
maximalen Anzahl von Teilsequenzen der Lange n. In jeder Sequenz, die 
kiirzer ist als der fur m angegebene Wert, konnen nicht alle moglichen 
Abschnitte der angegebenen Lange n vorkommen. 

Betrachtet man nun alle in einer Sequenz der Lange /t? auftretenden n-mere, 
die auf eine Teilsequenz der Lange p folgen, so ist die Anzahl dieser /7-mere 
im Vergleich zu der oben beschriebenen Anzahl von m-n + 1 Teilsequenzen 
deutlich geringer. 

Eine Sequenz. die alle 4"" moglichen p-mere enthalt, muS eine minimale 
Lange von k = 4" + pi Nukieotiden aufweisen. Setzt man voraus, daSallep- 
mere mit der gleichen Wahrscheinlichkeit vorkommen, so tritt in einer 
hinreichend lang gewahlten Sequenz jedes p-mer im Mittel alle k Nukleotide 
einmal auf; in einer Sequenz der Lange m mit m >> k also 1 = 
m/k = m/4P-(-p-1 mal. Folglich konnen in einer solchen Sequenz mit Lange 
m auch maximal / n-mexe beobachtet werden, die auf ein p-mer folgen. 
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Tabelle 1 : 





bequenzlange 


n-mere in aer sequenz 


n 


m 


m -4"n + 1 


!i 




84 


5 


'1028 


1024 


6 


4101 


4096 


J 


Iti^iiO 


16384 


8 






9 


262152 


262144 


10 


1048btib 


1048576 


12 


1b///227 ■ 


16777216 ■ 


13 


6/1088/6 


6/108864 


14 


268436469 


268435456 


15 


0/3/41838 


0/3/41824 


16 


420496/311 - 


429406/296 


17 ■ 


/1/9869200 ■ 


/1/y869184 


8 - 


68/104/6753 ■- 


68/194/6736 




2./48/ai£+11 


2,/48/8E+11 


20 - 


.oyybib+i2 


,09951 E+12 ■ 


iJ5 


.I2byb+i5 


.12byk+15 • ■ 



5 

Wahit man z.B. im menschlichen Genom (einzelstrangig) ein beliebig aber 
fest gewahltes 3-mer und untersucht alle Sequenzabschnitte der Lange n, 
die auf dieses 3-mer folgen, findet man, bei einer vorausgesetzten 
Gleichverteilung allerp-mere, maximal 48.500.000 verschiedene A7-mere. 

Auch in diesem Fall gibt es eine charakteristische Grenze fur die Vielfalt der 
Teilsequenzen. WahIt man die betrachteten Teilsequenzen langer als die der 
maximalen Vielfalt zugehorige Lange n , so gibt es mehr mogliche Varianten 
als in der untersuchten Sequenz vorkommen konnen. Beim menschlichen 
Genom (unter alien verallgemeinernden Voraussetzungen) ist dies eine 
Abschnittlange von n = 1 3; insgesamt gibt es 4^^ = 67 1 08864 Sequenzen 
der Lange 13. tm menschlichen Genom konnen aber, wie oben errechnet, 
nur ca. 50.000.000 verschiedene Teilsequenzen nach einem frei gewahlten 
3-mer vorkommen. Fur jede langere Teilsequenzlange konnen auf keinen Fall 
alle moglichen Varianten im Genom vorkommen. 
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Tabelle 2 zeigt an einigen Beispielen den Zusammenhang zwischen der 
Sequenzlange m, der Wahl von p und der Lange n der Teilsequenz, die nach 
dem p-mer betrachtet werden soli. In der dritten Spalte ist das unter 
idealisierten Annahmen durchschnittiiche Vorkommen des gewahlten p-mers 
in der Ausgangssequenz aufgetragen, daraus wird der Wert fur n bestimmt, 
fur den noch die komplette Vielfalt der o-mere nach dem p-mer vorkommen 
kann. Fiir jedes grolSer gewahlte p oder fur jede kiirzer gewahlte Sequenz 
trifft dies nicht mehr zu. 

Ein langeres p-mer schrankt die Vielfalt innerhalb der untersuchten Sequenz 
deutlicher ein als ein kurzeres p-mer, da das langere p-mer im Verhaltnis 
seltener auftritt. 

Tabelle 2: 



t>equenziange 




vorKommen a. p-mers 




Anzanrri -mere 


m 


P 


m/(4"p + p -1) 


n 




4352 


r- 


255 


5 — 


2b8 




3 


256 


4 




6^304 


4 


256 


4 


258 


1/408 


2 


1024 


5 


1024 


67584 


3 -" 


1024 


5 


1024 


265216 


4" 


1024 


5 


1024 


1/825792 


2 


1048576 ■ ■■■ - 


10 


1048576 


6i}208016 


3 • 




10 


1048576 


271581184 


4 ■ 


1048576 


10 


10485/6 


285212672 


2 


18/77216 


12 


18//7216 


1107296255 


3 ■ 


16777216 


12" 


18/77216 


4345298944 


4 


16/;7216 


12 


18/77216 


11408b0888 


2 


8/108864 


13 


6/108864 


4429185024 


3 


67108864 


13 


8/108884 


1/381195776 


4 - 


8/108864 


13 


8/108864 


4b83402752 


2 


268435456 


14 


288435456 


17716740096 


3 


288435456 


14 


288435456 


(J9b24783104 


4 


28843b456 


4- 


288435456 



Das im folgenden beschriebene Verfahren macht sich diese Reduktion der 
Vielfalt zu Nutze. So ist es zum Beispiel nach den obigen Betrachtungen 
nicht notwendig, die komplette Menge aller 25-mere auf einem Array zu 
synthetisieren, wenn man eine Aussage daruber treffen will, welche 25- 
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mere in einer Probensequenz vorkommen. Je nach Lange der untersuchten 
Sequenz kann nur ein sehr geringer Anteil aller 25-mere in dieser Sequenz 
vorkomnnen, siehe Tabelle 1. 

4.2 Dynamischer Arrayaufbau 

Im Vergleich zu den bisher gangigen (statischen) Verfahren der Generierung 
von Tragerchips, ist es erfindungsgemaB moglich, schnell von einem Array 
zunn nachfolgenden Array zu lernen und dadurch ein Vielfaches der 
bisherigen Informationsmenge zu erhalten. 

Konnen in kurzer Zeit verschiedene Arrays unter Verwendung der, nach 
Auswertung des Vorgangerarrays, erhaitenen Informationen erzeugt 
werden, so wird das System zu einem "lernenden" System, Mit dieser 
Methode konnen die oben erwahnten 25-mere einer Sequenz bestimmt 
werden, ohne sie in ihrer Vielfalt (4^^ = 1.125899907 x 10'^) syn- 
thetisieren zu mussen. 

Man kann beispielsweise mit einer variablen Sondenlange s beginnen, mit 
der die mogiiche Vielfalt (4*) aller s-mere auf dem Array synthetisierbar ist. 
Falls alie moglichen 4* Sequenzvariationen nicht auf einem einzigen Trager 
erzeugt werden konnen, ist es moglich auch eine begrenzte Anzahl von 
mehreren Tragern fur einen Hybridisierungszyklus zu verwenden. Liegt die 
Lange der Sonden unter dem in Tabelle 1 ermittelten Wert /?, so ist es 
moglich, dalS alle auf dem Array erzeugten Sequenzen In der 
Ausgangssequenz vorkommen, wahrscheinlich ist es aber nicht. Zudem 
nimmt diese Wahrscheinlichkeit mit wachsender Lange der Sonden ab. Auf 
jeden Fall konnen aber nicht mehr als die in Tabelle 1 errechneten 
Teilsequenzen in der Sequenz vorkommen. 

Im nachsten Schritt werden alle Sonden, die auf dem Vorgangerarray ein 
Signal erzeugt haben, auf einem neuen Array synthetisiert und um jeweils 
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mindestens ein Nukleot:d an alien moglichen Variationen verlangert, d.h. bei 
einer Verlangerung urn ein Nukleotid entstehen vier unterschiedlich 
verlangerte Hybridisierungssonden. Spatestens ab der in Tabelle 1 
dargestellten Teilsequenzlange n wird sich die Anzahl der Signale nicht mehr 
5 vergrolSern, weil ihre Anzahl (unter idealisierten Annahnnen) nicht groSer 
sein kann als die maximale Anzahl der unterschiedlichen Teilsequenzen in 
der Ausgangssequenz. Unter "nornnalen" Voraussetzungen wird es Signale 
geben, die nach idealisierten Voraussetzungen nicht hatten entstehen 
durfen. Diese Sonden konnen zunachst welter aufgebaut werden, durch 
0 verlangerte Sonden und die dadurch resultierenden spezifischeren 
Bindungen konnen mogliche Fehler im Laufe der Iteration elinajnlert werden. 
In der Praxis wird zudem nie die komplette Vielfalt aller nnoglichen 
Teilsequenzen in einer zu untersuchenden Sequenz auftreten, so daS 
deutlich weniger Signale als die maximal mogliche Anzahl erzeugt werden. 

Je nach Anzahl der Stellplatze und der Lange der zu untersuchenden 
Sequenz ist es bevorzugt, die Sondenlange des ersten Arrays so zu wahlen, 
dafS nach der Hybridisierung von maximal 25% aller Stellplatze Signale 
ausgehen. Durch dieses Vorgehen wird gewahrleistet, daS die Anzahl der 
Sonden im nachsten Schritt nicht zunimmt. Die Sonden auf dem neuen 
Array konnen somit um eine Base langer als die Sonden auf dem 
Vorgangerarray gewahit werden, ohne daB sich die Anzahl der Sonden 
vergrofSert, 

Die Lange m der Sequenz {in diesem Fall ein Einzelstrang, fur einen 
Doppelstrang gilt ahnliches) muS fur eine solche Wahl der Startsonden 
kleiner sein als die eriaubte Anzahl der Signale, in Formein: m < 4 ^'^ +s-1 , 
wobei s die Sondenlange ist. Auf einem Array mit Sondenlange s = 6 kann 
also eine Sequenz der maximalen Lange m = 4^ + 5 = 1029 bearbeitet 
werden, so daI3 nach der Hybridisierung auf jeden Fall von weniger, bzw. 
von maximal 25% aller Sonden Signale ausgehen. Die folgende Tabelle 3 
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zeigt die bevorzugte Lange s der Startsonden in Abhangigkeit von der Lange 
m der zu bestimmenden Sequenz. 

Tabelle 3: 







5 


260 


6 


1029 


7 


4102 


8 


16391 


9 


65544 


10 


262153 


11 


1048586 


12 


4194315 


13 


16777228 


14 


67108877 


15 


268435470 


16 


1073741839 


17 


4294967312 


20 


i!./487aE+11 


22 


4.39805E+12 


25 


2.81475E+14 



Da in einer Sequenz der Lange m Teilsequenzen der Lange s durchaus 
mehrfach auftreten konnen, reduziert sich die rechnerische Anzahl von m- 
s + 1 Teilsequenzen der Lange s oftmals in der Praxis. In einem solchen Fall 
20 ist sine kleinere Sondenlange ausreichend. Da die Anzahl sich 
wiederholender Sequenzen zu Beginn aber nicht bekannt ist, ist der oben 
bestinnnnte Wert als oberer Grenzwert anzusehen. Die Anzahl der Signale 
wird durch wiederholte Auftreten einer Teilsequenz reduziert, aber niemals 
vergroBert. 

25 



Einige Zahlenbeispiele; 

Fur das menschliche Genom mit 3,2 x 10^ Nukleotiden pro Strang ist eine 
30 Sondenlange von 17 Basen ausreichend, um theoretisch sicher zu stellen, 
dafi an weniger als 25% alter Stellplatze auf dem Array eine Bindung 
stattfindet. Fiir E.coli mit 4 639 221 Nukleotiden sind bereits Sonden der 
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Lange 13 ausreichend. Die Stellplatzanzahl aller folgenden Arrays wird die 
Anzahl der Stellplatze auf diesen Arrays nicht uberschreiten. 

Wahit man die Lange der Sonden auf dem ersten Array nicht nach der oben 
beschriebenen Methode, so pendelt sich die Anzahl der Signale auf jeden 
Fall im Laufe des Verfahrens unter den maximalen Wert von m-n-f 1 ein, 
wobei n die im ersten Abschnitt beschriebene Lange ist, fur die die Vielfalt 
aller /7-mere grofSer ist als die Anzahl der in der Ausgangssequenz moglichen 
n-mere. WahIt man zu Beginn eine zu kurze Sondenlange, so wird sich die 
Anzahl der benotigten Stellplatze in den nachsten Schritten zunachst bis zu 
maximal 4"'^ Stellplatzen erhohen und dann stagnieren, WahIt man die 
Sonden zu lang, so werden bei der Hybridisierung deutlich weniger als 25% 
aller Stellplatze erfolgreich sein, so daS sich die Anzahl der benotigten 
Stellplatze im nachsten Schritt automatisch reduziert. 

Wie im ersten Abschnitt beschrieben, laftt sich die Vielfalt der Teilsequenzen 
in einer Sequenz der Lange m noch weiter reduzieren, indem man nur 
Sequenzabschnitte betrachtet, die auf eine vorher festgelegte Abfolge von 
Nukleotiden folgt. Auch in diesem Fall laBt sich die Lange der Sonden auf 
dem ersten Array wie oben bestimmen. Fur ein Array, auf dem alie 
Kombinationen der Lange s = n + p synthetisiert werden, die mit dem p-mer 
beginnen oder enden, bedeutet dies, dalS nur von maximal 25% (d.h. 1/4"%) 
4"'^ aller Stellplatze auf diesem Array Signale ausgehen durfen. Somit kann 
auf einem Array mit Sondenlange s = n + p und einem beliebigen, aber fiir 
alle Oder einen Teil der Sonden festgewahlten Abschnitt der Lange p eine 
Sequenz der Lange m mit m ^ 4"*^ x (4^ + p-1 ) hybridisiert werden, ohne daS 
die theoretisch mogliche Anzahl der Stellplatze, von denen Signale ausgehen 
konnen, 25% aller Stellplatze uberschreitet wobei; n ist dabei der im ersten 
Abschnitt berechnete Wert ist. 

Das Verhaitnis zwischen der maximalen Lange der Ausgangssequenz und 
der Lange der Sonde, sowie derp-mere ist in Tabelle 4 fiir einige Beispiele 
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dargestellt. Fur das menschliche Genom genugt bei einem festgewahlten 3- 
mer eine Sondenlange von n + p=:l7 Nukleotiden, um die erlaubte Anzahl 
der Stellplatze, dieein Signal liefern, nichtzu Oberschreiten. Die Anzahl der 
zu synthetisierenden Sonden ist in jedem Fall 4", also die Menge aller 
Moglichkeiten, den flexiblen Sondenteil aufzubauen. 

Die oben, sowie die im ersten Abschnitt berechneten Werte gelten fur eine 
Gleichverteilung der betrachteten p-mere. In den meisten Sequenzen gilt 
diese ideaiisierte Annahme nicht, es treten unter Umstanden stark 
unterschiedliche Verteilungen der einzelnen Nukleotide auf. Kennt man 
daher z. B: bei DNA- / RNA-Sequenzen den A-T bzw. C-G- Gehalt der zu 
untersuchenden Sequenz, so lassen sich Wahrscheinlichkeiten fur die 
einzelnenp-mere berechnen. Durch eine Gewichtung bei der Berechnung der 
maximalen Sequenzlange mit Hilfe der Wahrscheinlichkeit f lir das Auftreten 
des gewahlten p-mers werden sich in einigen Fallen die in den Tabellen 2 
und 4 aufgefuhrten Werte verschieben. 

Tabelle 4: Maxinnal mogliche Lange der Ausgangssequenz inn Verhaltnis zur 
Sondenlange und ihrer Zusammensetzung, 







sondenlange 


;>equenziange 


n 


P 




m 


4 


3 


7 


4224 


4 


4 


B 


18ij/8 


5 


3 


6 


18896 


5 


4 


d 


66304 


8 


3 


11 


1081344 


S 


4 


12 


4243456 


10 




13 


17301504 


10 


4 


14 


67895296 


12 


3 


15 


276824064 


12 


4 


lb 


1086324736 


14 


3 


17 


4429185024 


14 


4 


18 


1/381195776 


lb 


3 ■ 


18 


1//16/40096 



Somit bietet der dynannische Auf bau einer Folge von Arrays den Vorteil, daS 
nach Auswertung der Informationen des bzw. der Vorganger-Arrays ein 
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neues Array aufgebaut vverden kann, das die benotigten Daten liefert. Es ist 
moglich, Kenntnis uber Teilsequenzen in der Ausgangssequenz von 
spezifischer Lange, z.B. von 25 Basen und mehr, zu gewinnen, ohne alle 
moglichen Kombinationen dieser Lange aufbauen zu miissen. Das Verfahren 
pendelt sich automatisch auf eine maximale Signalanzahl und somit auf eine 
maxinnale Stellplatzanzahl pro Array ein. 

Im folgenden wird eine Anwendung beschrieben, die sich mit dem oben 
beschriebenen dynamischen Arrayaufbau realisieren laBt. 

4.3 Dynamisches Sequenzieren durch Hybridisierung (DSBH) 

An dieser Stelle wird zunachst das allgemeine Prinzip des DSBH 
beschrieben, das im wesentlichen durch einen fiexiblen Aufbau der Arrays 
moglich wird; im nachsten Abschnitt folgen mogliche Umsetzungen dieses 
Prinzips. 

Wie oben beschrieben, kommenp-mere in einer zu bestimmenden Sequenz 
mit unterschiedlichen Wahrscheinlichkeiten vor, die sich z. B. bei DNA- 
Sequenzen durch Kenntnis des A-T und G-C Gehalts der Sequenz 
bestimmen lassen. Der Grundgedanke des DSBH besteht nun darin, p-mere 
auszuwahlen, die in regelmafSigen Abstanden in der Sequenz vorkommen, 
sie lassen sich als "Insein" auffassen, deren Sequenz bereits bekannt ist. 
Von diesen festgewahlten Orten bekannter Sequenz (Points of Known 
Sequence, kurz POKS) ausgehend, wird nun die Probensequenz bestimmt. 
Dazu werden zunachst drei Arten von Sonden auf den Arrays benotigt: 

(1) Sonden mit festgewahlten Sequenzen am 3'- Ende, 

(2) Sonden mit festgewahlten Sequenzen am 5 '-Ende, 

(3) Sonden mit festgewahlten Sequenzen im Innern, z.B. im Zentrum der 
Sequenz. 
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Die Sonden (1), (2) und (3) konnen gemeinsam oder/und nacheinander auf 
dem gleichen Trager oder auf unterschielidhcen Tragern eingesetzt werden. 
Fur die beiden ersten Sondentypen werden alle Kombinationen einer 
vorgegebenen Lange synthetisiert, wobei die Gegensequenz zum gewahlten 
POKS einmal am 3 ' -Ende der Sequenz und einmal am 5 '-Ende der Sequenz 
aufgebaut wird. Durch die Hybridisierung der Ausgangssequenz gegen die 
Sonden dieses Arrays erhalt man dann Informationen uber alle 
Nukleotidkombinationen der vorgegebenen Lange einmal in 3 '-5 '-Richtung 
zum POKS hin und einmal in 3 '-5 '-Richtung vom POKS weg. Nach dem 
oben beschriebenen Vorgehen zum dynamischen Aufbau der Arrays 
werden alle Sonden der Stellplatze, die ein Signal erzeugt haben, auf einem 
neuen Array synthetisiert und dabei jeweils um ein Nukleotid in alien vier 
Variationen verlangert. Bei einer hinreichend groften Anzahl von Stellplatzen 
auf dem Array konnen auch zwei oder mehr Iterationsschritte auf einem 
Array abgearbeitet werden, d.h. es kann eine Verlangerung um zwei oder 
mehr Nukleotide erfolgen, 

Bei der Verlangerung der Sonden ist zu beachten, daS Sonden, bei denen 
die zum POKS komplementare Sequenz am 3 '-Ende aufgebaut wird, in 5 '- 
Richtung verlangert werden, und Sonden mit der komplementaren POKS- 
Sequenz am 5 '-Ende entsprechend in 3 '-Richtung. Hat die Iteration eine 
maximale Sondenlange erreicht, so ist zu beiden Seiten jedes POKS die 
Abfolge der Nukleotide auf der Lange der maximalen Sondenlange bekannt. 
Die Sondenlange wird dabei entweder durch die Moglichkeiten des 
verwendeten Systems beschrankt oder durch einen KompromilS aus der 
benotigten Zeit bis zum endgultigen Ergebnis und dessen Genauigkeit, 

Mit Hilfe der dritten Sondenart wird der Zusammenhang zwischen den oben 
bestimmten Sequenzen hergestellt. Es werden nun all die Sondensequenzen 
bestimmt, die die POKS-Gegensequenz im Zentrum haben und davor, bzw, 
dahinter Teile der durch die ersten beiden Sonden gewonnen Informationen . 
Diese Sonden werden auf einem neuen Array aufgebaut; nach der 
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Hybridisierung und Auswertung der Signale sind aile Moglichkeiten bekannt, 
zu denen die durch die ersten zwei Sondenarten bestimmten Sequenzen 
zusammengesetzt werden durfen. 

5 Diese Information kann man genauso durch einen iterativen Arrayaufbau 
erhalten, bei dem alle Kombinationen einer bestimmten Lange vor und nach 
der POKS-Gegensequenz aufgebaut werden. Nach Auswertung der Signale 
werden die relevanten Sonden wie oben beschrieben weiter verlangert, jetzt 
in beide Richtungen, usw. Bei einer hinreichend groSen Stellplatzanzahl 
10 kann man diese Iterationsschritte aber durch den sofortigen Aufbau der 
benotigten Sonden zur maximalen Lange vermeiden. 

Das Array mit der dritten Sondenart lost hochparallel eine kombinatorische 
Aufgabe, die ohne einen flexiblen Arrayaufbau nur mit sehr grofSem 
15 Rechenaufwand mit Hilfe von Computern losbar ist. Die Verlagerung dieser 
Aufgabe auf das Array bedeutet einen erheblichen Zeitgewinn gegenuber 
einer Kombinatorik am Rechner und liefert zudem verlaRlichere Daten. 

Werden die POKS nun entsprechend gewahit, so kann mit der oben 
20 beschriebenen Methode die Ausgangssequenz wieder zusammengesetzt 
werden, indem die Uberlappungen der durch die einzelnen POKS 
bestimmten Teilsequenzen verglichen und kombiniert werden. 

In den folgenden Punkten 5 und 6 sind nun zwei besonders bevorzugte 
25 Ausfiihrungsformen des erfindungsgemaSen Verfahrens im Detail eriautert. 



30 
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5. Dynamische Sequenzierung durch Hybridisierung (DSBH) mil 
statistisch gewahlten festen Sondenabschnitten (POKS) 

5.1 Voraussetzungen 

Das Verfahren zur Sequenzierung mit statistisch, bzw. durch das Verfahren 
gewahlten POKS, sowie die zugehorige Probenvorbereitung werden fur 
einen Einzelstrang beschrieben. Mit dem gieichen Verfahren ist auch die 
Sequenzierung doppelstrangiger Nukleinsauren mogiich. 

5.1.1 Probenvorbereitung 

Die hier beschriebene Sequenzierung geht von einzelstrangigen 
Nukleinsauren aus. Diese konnen im einfachsten Fall direkt in Fornn 
einzelstrangiger RNA oder DNA aus Viren, Bakterien, Pflanzen, Tieren oder 
dem Menschen isoiiert werden. In der Mehrzahl der Falle werden die 
einzelstrangigen Nukleinsauren aber ausgehend von dsDNA durch spezielle 
in vitro Verfahren erzeugt. Hierzu zahlen z.B. asymmetrische PCR (erzeugt 
ssDNA), PCR nnit derivatisierten Primern, die eine selektive Hydrolyse eines 
einzdnen Stranges im PCR-Produkt ermoglichen, oder die Transkription 
durch RNA-Polymerasen (erzeugt ssRNA). Als Matrize kann bei der 
Transkription neben nicht klonierter einzelstrangiger DNA vor allem auch in 
spezielle Vektoren (z.B. Plasmidvektoren mit einem Promoter; 
Plasmidvektoren mit zwei unterschiedlich orientierten Promotoren fur eine 
bestimmte oder zwei unterschiedliche RNA-Polymerasen) klonierte dsDNA 
eingesetzt werden. Die in die Plasmide klonierte Insert-DNA oder die bei der 
PCR eingesetzte DNA-Matrize konnen zum einen aus Viren, Bakterien, 
Pflanzen, Tieren oder dem Menschen isoiiert werden, zum anderen aber 
auch in vitro durch reverse Transkription, RNaseH-Behandlung und 
anschlielSende Amplifikation (z.B. durch PCR) aus ssRNA erzeugt werden. 
Als RNA-Matrizen konnen rRNAs, tRNAs, mRNAs und snRNAs sowie in 
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vitro erzeugte Transkripce (entstanden z.B. durch Transkription mit SP6-, 
T3- Oder T7-RNA-Polym3rase) eingesetzt werden. 

Die fur die Sequenzierung vorgesehenen, einzelstrangigen Nukleinsauren 
werden sequenzspezifisch oder/und sequenzunspezifisch fragmentiert (z.B. 
durch sequenz{un)spezifische Enzyme, Ultraschall oder Scherkrafte), wobei 
erne im wesentlichen homogene Langenverteilung der Bruch- 
stucke/Hydrolyseprodukte angestrebt wird. Wird keine homogene Langen- 
verteilung der Fragmente erreicht, kann anschlieftend eine Langen- 
fraktionierung durch gelelektrophoretische und/oder chromatographische 
Verfahren durchgefuhrt werden. 

Die entstandenen Fragmente konnen mit Markierungsgruppen, z.B. 
fluoreszierenden Agenzien oder radioaktiven Isotopen markiert werden. Die 
Markierung erfolgt dabei bevorzugt an den Enden der Fragmente (terminate 
Markierung). 3'-terminale Markierungen konnen unter Verwendung 
geeigneter Synthone z.B. mit der terminalen Transferase oder der T4 RNA- 
Ligase durchgefuhrt werden. Werden fur die Fragmentierung in vitro 
erzeugte RNA-Transkripte eingesetzt, kann die Markierung auch vor der 
Fragmentierung durch bei der Transkription eingesetzte markierte Nukleotide 
erfolgen (interne Markierung). 

Die markierten, fragmentierten Nukleinsauren konnen dann in einer 
geeigneten Hybridisierungslosung gegen den mit einem Sondenarray 
beschichteten Trager hybridisiert werden. 

5.2 Auswahl der festgelegten Sondenabschnitte (POKS) 

In der folgenden Variante des Verfahrens zur Sequenzierung mit POKS 
dienen nach unterschiedlichen Kriterien ausgewahlte p-mere als POKS; sie 
konnen zu verschiedene Zeitpunkten des Verfahrens bestimmt werden. 
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Zum einen kann zu Beginn des Verfahrens eine festgelegte Anzahl POKS 
bestimmt werden. Hier bietet es sich an, die Kombinationen (p-mere) 
auszuwahlen, die in der Ausgangssequenz nnit der hochsten 
Wahrscheinlichkeit vorkommen. Dies ist nnoglich, da die einzelnen 
Nukleotide und somit auch die einzelnen p-nnere wie im ersten Abschnitt 
beschrieben mit unterschiedlichen Wahrscheinlichkeiten in der 
Probensequenz vorkommen, Kennt man z. B. bei DNA-Sequenzen den G-C, 
bzw. A-T Gehalt dieser Sequenz, so konnen also diejenigen p-mere 
bestimmt werden, die am wahrscheinlichsten, und somit am haufigsten in 
der Sequenz auftreten. Es sind ebenso andere Methoden zu einer Wahl der 
POKS zu Beginn des Verfahrens denkbar, z.B. aus Erfahrungswerten oder 
durch eine willkurliche Bestimmung. 

Zum anderen kann es sinnvoll sein, nur wenige/bzw. einen POKS zu Beginn 
des Verfahrens festzulegen und alle folgenden POKS aus den bis dahin 
gewonnen Sequenzinformationen zu bestimmen. Durch dieses Vorgehen 
lernt das Verfahren aus den bisher generierten Daten und bestimmt, welche 
Daten fur den weiteren Verlauf des Verfahrens und das Zusammensetzen 
der Informationen wichtig sind. Die ersten POKS mussen nicht notwendiger 
Weise vom Anwender vorgegeben werden, sie konnen z. B. wie oben 
eriautert vom System durch Bestimmung der Wahrscheinlichkeiten fiir die 
potentielien POKS, aus Erfahrungswerten oder willkurlich bestimmt werden. 

Bei einer Wahl der POKS zu Beginn des Verfahrens muS zunachst die 
Anzahl der POKS festgelegt werde, Diese kann z, B. aus Erfahrungswerten 
bestimmt, oder statistisch berechnet werden, indem sie so groB gewahit 
wird, dais der Abstand zwischen zwei POKS rein rechnerisch deutlich kleiner 
ist als die vorgegebene maximale Sondenlange auf den Arrays. 

Werden die POKS erst im Laufe des Verfahrens bestimmt, so kann ihre 
Anzahl entweder vorher festgelegt werden, s,o., so daS das Verfahren mit 
dem Erreichen der maximalen POKS-Anzahl abbricht, oder es werden so 
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lange weitere POKS bestimmt, bis andere Abbruchkriterien erfullt sind. Zum 
Beispiel kann das Verfahren abgebrochen werden, wenn eine Sequenz von 
einer vorgegebenen Lange zusammengesetzt wurde, die alle Anspruche an 
eine potentielle Losung des Problems erfullt. Ebenso kann das Verfahren z. 
5 B. dann beendet werden, wenn sich sie bisher zusammengesetzten 
Sequenzen an ketnem der beiden Enden weiter verlangern lassen. 

5.3 Vorgehensweise 

10 Das Verfahren beruht im wesentlichen auf dem oben beschriebenen 
dynannischen Arrayaufbau, da dieser es erlaubt, Sequenzinfornnationen von 
spezifischer Lange zu erhalten, ohne dazu alle Sonden in ihrer Vielfalt 
erzeugen zu miissen, AufSerdenn wird die parallele "Rechenleistung" der 
Arrays genutzt, die zeit- und rechenaufwendige Vorgange im Computer 

15 uberfiussig macht. 

5.3.1 Verschiedene Sondentypen auf dem Array 

Fur alle zu Beginn festgelegten POKS werden die drei oben beschriebenen 
20 Sondentypen auf einem oder mehreren Arrays synthetisiert, d.h. einmal 
werden alle Kombinationen einer vorgegebenen Lange mit der POKS- 
Gegensequenz am 3'-Ende und einmal mit dieser Sequenz am 5'-Ende 
erzeugt. Durch die Hybridisierung mit der Ausgangssequenz erhalt man nach 
der Signalauswertung Informationen in (ungefahrer) Sondenlange iiber die 
25 Paarungen der Nukieotide rechts und links von diesen POKS. Mit Hilfe der 
Signale konnen wie oben beschrieben iterativ neue Sonden erzeugt werden. 
Dies wiederholt sich, bis eine maximale Sondenlange erreicht ist. Zu diesem 
Zeitpunkt kennt man in der Ausgangssequenz alle moglichen Kombinationen 
auf maximaler Sondenlange zu beiden Seiten jedes POKS. 

30 
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Tabelle 5: 
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Tabelle 5 zeigt die drei verschiedenen Sondentypen mit den POKS (PPP) 
bzw, deren komplementarer Sequenz am 3'-Ende, am 5'-Ende und im 
Inneren der Sonde 



Mit Hilfe des dritten Sondentyps wird nun der Zusammenhang zwischen 
diesen Informationen geklart. Jede Sonde enthalt nun im Zentrum die 
Gegensequenz zu den gewahlten POKS, zu beiden Seiten dieser Sequenz 
werden nun in verschiedenen Sonden alle moglichen Kombinationen einer 
bestimmten Lange erzeugt. Durch das gleiche iterative Vorgehen wie bei 
den beiden ersten Sondentypen gewinnt man Informationen uber alle 
Kombinationen der bisher erkannten Sequenzen, die in der 
Ausgangssequenz auftreten. Wenn die sich aus der Anzahl aller moglichen 
Kombinationen der erkannten Sequenzen ergebende Zahl der benotigten 
Stellplatze f ur den dritten Sondentyp geringer ist als die Stellplatzanzahl auf 
dem Array, konnen die Teile der erkannten Sonden des 1 . und 2. Typs 
direkt in die neuen Sonden ubernommen werden. Eine Iteration ist in diesem 
Fall nicht notwendig. Fur die direkte Erzeugung aller moglichen 
Zusammenhange zwischen den erkannten Sequenzen werden deutlich 
weniger Stellplatze benotigt. 
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5.3.2 Zusammensetzen der ersten Sequenzinformationen 

Nach der Auswertung der Arrays mit Sonden des dritten Typs und einem 
Zwischenschritt im Rechner sind alle Kombinationen der Lange 

k= 2 X Maximale Sondenlange - POKS-Lange 

bekannt, die in der Ausgangssequenz auftreten konnen; sie haben alle einen 
POKS in der Mitte der Sequenz. 

Mit Hilfe der POKS lassen sich diese Teilsequenzen nun erweitern. Dazu 
wird in jeder Teilsequenz zu einer oder beiden Seiten des mittleren POKS 
eine neue Stelle gesucht, an der einer der verwendeten POKS auftritt. Wird 
ein POKS gefunden, so vergleicht man die Sequenzinformation zu beiden 
Seiten dieses POKS nnit alien Teilsequenzen, die genau diesen POKS 
enthalten. Dieses Vorgehen ermoglicht die Verkniipfung der einzelnen 
Teilsequenzen, es entsteht ein Baum aller Varianten, in denen diese 
Sequenzen kombinierbar sind. 

Die folgende Tabelle 6 zeigt die Uberschneidung zweier Teilsequenzen in 
einer DNA Sequenz, die mit Hilfe eines POKS erkannt wurde. 

Tabelle 6: 

ATGGAGCACTTGGPPPCCTACGPPPGTCA 

TTGGPPPCCTACGPPPGTCATTGGCAGTA 

In der oberen Sequenz von Tabelle 6 wurde ein weiterer POKS an Position 
7 rechts nach dem POKS in der Mitte gefunden. Der Vergleich mit der 
zweiten Sequenz, die den "erkannten" POKS in der Mitte der Sequenz hat, 
hat ergeben, daft eine grofStmogliche Uberschneidung zwischen den beiden 
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Sequenzen besteht, und zwar von Position eins der zweiten Sequenz bis zu 
Position 20 dieser Sequenz. 

Wurden alie POKS bereits zu Beginn des Verfahrens bestlmnnt, so sind nun 
5 alie moglichen Nachbarschaftsverhaltnisse der Teilsequenzen bekannt. Die 
IMukleotidkombinationen konnen zur Gesamtsequenz zusammengesetzt 
werden, dazu wird der Baum aller Kombinationsmoglichkeiten durchlaufen 
und sinnvol! erscheinende Teilsequenzen werden zu einer Gesamtsequenz 
vereint. Falls repetitive Teilsequenzen auftreten, wird der Algorithmus nach 
10 einigen Zyklen abgebrochen; ein mogliches Abbruchkriterium ist dabei zum 
Beispiel die angenommene Lange der Ausgangssequenz. 

Alie potentiellen Losungssequenzen miissen zum SchluB noch auf ihre 
Richtigkeit uberpruft werden, damit der Fehler zwischen der bestimmten 
15 Losungssequenz und der Ausgangssequenz moglichst gering ist. 

5.3.3 Bestimmung neuer POKS 

Wurden nicht alie POKS gleich zu Beginn des Verfahrens festgelegt, so ist 
20 es nun moglich, neue POKS aus den bereits bekannten Sequenzteilen zu 
bestimmen. Hierzu gibt es mehrere Varianten. Zum einen konnen alie 
Teilsequenzen zu einer Seite der POKS in der Mitte jeder Sequenz auf die 
am haufigsten auftretenden p-mere untersucht werden, wobeip die Lange 
der zu wahlend POKS ist, die entweder vorher festgelegt oder im Verfahren 
25 optimiert werden kann. Durch diese Wahl der POKS kann im nachsten 
Schritt fiir eine Mehrzahl, bzw. fiir alie bis jetzt bekannten Teilsequenzen 
eine Sequenz bestimmt werden, durch die sich die bisher detektierten 
Sequenzen verlangern lassen. Um sicher zu stellen, da(3 fur jede Teilsequenz 
eine Folgesequenz, bzw. eine Vorgangersequenz gefunden wird, werden 
30 eventuell relativ viele POKS benotigt. Mit den neu bestimmten POKS werden 
die gleichen Sonden erzeugt wie mit den zu Beginn gewahlten POKS. Mit 
den dadurch gewonnenen Informationen ergeben sich neue Moglichkeiten, 
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die bekannten Teilsequenzen zusammenzusetzen und zu verlangern. Sollten 
die Abbruchkriterien des Verfahrens noch nicht erfullt sein, so werden aus 
den neu bestimmten Sequenzen wiederum POKS bestimmt und mit deren 
Hilfe neue Informationen gewonnen. 

Um die Anzahl der benotigten POKS zu verringern, ist es sinnvoll, die nnit 
den zu Beginn des Verfahrens gewahlten POKS gewonnenen Infornnationen 
zunachst zu langeren Sequenzen zusammenzusetzen. Diese langeren 
Sequenzen werden, falls erforderiich, untereinander verglichen und kiirzere 
Sequenzen, die auch in langeren Sequenzen zu finden sind, gestrichen. Die 
restlichen Sequenzen enden alle auf Teilsequenzen fur die kein Nachfolger 
bestimmt werden kann, bzw. beginnen alle mit Sequenzen, fur die es keinen 
Vorganger gibt. In diesen "Endsequenzen" werden nun wie oben p-mere 
bestimmt, die haufig vorkommen. Die p-mere dienen als neue POKS, fur die 
wieder die drei Sondentypen erzeugt werden und somit nach der 
Signalauswertung alle moglichen Basenkombinationen um die POKS bekannt 
sind. 

Nur in der Anfangssequenz und der Endsequenz der zu untersuchenden 
Sequfenz konnen POKS gefunden werden, ohne dalS sich diese Sequenzen 
weiter verlangern lassen. Werden diese Teilsequenzen im Verfahren erkannt, 
so werden sie gesondert behandelt und nicht in die Bestimmung neuer 
POKS einbezogen. 

Aufgrund der Wahl der neuen POKS uberschneiden sich die neu bestimmten 
Sequenzen nun zum Teil mit den bereits bekannten langeren Sequenzen, 
diese werden nun, soweit moglich, in beide Richtungen verlangert. Zudem 
werden alle Kombinationen erzeugt, die durch die neuen POKS entstehen 
und noch nicht in den bisher bekannten Sequenzen enthalten sind. Aus den 
neuen "Endsequenzen" werden wieder neue POKS erzeugt; dies geschieht 
so lange, bis eines der Abbruchkriterien erfullt wird. 
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Neben den oben aufgefuhrten Methoden zur Bestimmung der POKS sind 
naturlich auch andere Vorgehensweisen denkbar, bei denen POKS nach den 
einzelnen Teilschritten des Verfahrens bestimmt werden. Unter anderem 
kann sich eine Kombination aus verschiedenen Methoden als sinnvoll 
erweisen. 

Durch die selbstandige Wahl der neuen POKS entwickelt sich im System ein 
LernprozefS, bei dem sich die Auswertung der Daten und die 
Zusammensetzung neuer Arrays zur Gewinnung neuer Daten gegenseitig 
bedingen. 

5.3.4 Endgiiltiges Zusammensetzen und Verifizierung der Sequenzen 

Bestimmt man die POKS zu Beginn des Verfahrens, so werden die erkannten 
Teilsequenzen in alien moglichen Kombinationen zu langen Sequenzen 
zusammengesetzt. Bei einer entsprechenden Auswahl der POKS uberlappt 
jede Teilsequenz mit einer anderen, so dafS sich die Ursprungssequenz unter 
den kombinierten Moglichkeiten befindet. Um herauszufinden, welche der 
Sequenzen diejenige ist, die das Problem am besten lost, werden zunachst 
alle Sequenzen untereinander auf Uberlappungen iiberpruft. Treten solche 
Uberlappungen auf, und iiberschreitet eine aus den sich uberlappenden 
Teilsequenzen zusammengesetzte Sequenz nicht die geschatzte oder 
bekannte Lange der Probensequenz, so werden die Sequenzen weiter 
kombiniert. Kurze Sequenzen, die komplett in langeren Sequenzen enthalten 
sind, werden gestrichen, 

Neben der Sequenzlange ist der Vergieich mit alien auf den Arrays 
detektierten Teilsequenzen ein Anhaltspunkt, um die Sequenz zu 
bestimmen, die mit der Probensequenz am besten ubereinstimmt. In der 
Losungssequenz sind im Idealfall alle, zumindest aber ein grower Teil der auf 
den Arrays mit den ersten beiden Sondentypen bestimmten Sequenzen 
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enthalten, auf keiner Fall durfen vor oder nach einem POKS 
Basenkombinationen auftreten, die nicht auf den Arrays erkannt wurden. 

1st zudem eine Quantifizierung der erhaltenen Signale moglich, kann also 
zumindest annahernd bestimmt werden, wie oft eine detektierte Sequenz in 
der Ursprungssequenz vorkonnmt, so ist dies ein weiteres Kriterium wahrend 
der Verifizierung; es darf keine Sequenz haufiger als erkannt vorkonnmen. 

AuBer den oben aufgefuhrten Kriterien ist es naturlich moglich, die gleiche 
Sequenz zur Kontrolle nnit anderen POKS zu untersuchen und die Ergebnisse 
zu vergleichen, ein ProzeS, der bei einer hohen Stellplatzdichte auf den 
Arrays durchaus parallel verlaufen kann. 

Werden die POKS erst im Verlauf des Verfahrens bestimmt, so kann schon 
in jedem Schritt uberpruft werden, ob die einzelnen Sequenzen nur 
Teilsequenzen enthalten, die auch in der Probensequenz vorkommen, oder 
ob Sequenzen auftreten, die nicht auftreten durfen und eine Sequenz damit 
Losungssequenz ausscheidet. Genauso kann (bei der oben angesprochenen 
Quantifizierung der Signale) schon nach jedem Schritt sichergestellt werden, 
daft eine Teilsequenz nur so oft eingebunden wird wie es zulassig ist. 

5.3,5 Abbruchkriterien 

Bei einer vorher festgelegten Anzahl von POKS kann das Verfahren 
automatisch abgebrochen werden, wenn nach bzw, bei der Bestimmung 
neuer POKS diese Anzahl uberschritten wird, bzw. wenn bei vorgegebenen 
POKS alle dadurch erhaltenen Informationen verarbeitet wurden. 

Sind sowohl die POKS als auch deren Anzahl frei wahlbar, so mufS ein 
anderes Abbruchkriterium gefunden werden. Zunachst ist die Bestimmung 
von p-meren naturlich begrenzt durch deren Anzahl, da es genau 4''p-mere 
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gibt. Je nach Wahl von p ist diese Anzahl reiativ hoch und damit zu groS, 
um als naturliches Abbruchkriterium zu dienen. 

Ohne jedes Vorwissen uber die Beschaffenheit der zu untersuchenden 
Sequenz (z.B. ohne Kenntnis ihrer Lange) kann das Verfahren dann 
abgebrochen werden, wenn fur jede theoretisch verlangerbare, erkannte 
Teilsequenz ein Nachfolger, bzw. ein Vorganger gefunden wurde. Zu diesem 
Zeitpunkt liegt die komplette Sequenzinformation der Ausgangssequenz vor, 
so dafJ durch eine erneute Bestimmung von POKS keine neuen 
Informationen gewonnen werden konnen. 

Ist die Lange der zu untersuchenden Sequenz bekannt, so kann die 
zyklische POKS-Bestimmung beendet werden, sobald eine Sequenz 
gefunden wurde, deren Lange mit der ungefahren Ausgangslange 
iibereinstimmt, und die (fast) alle auf den Arrays erkannten Teilsequenzen 
enthalt. 

Zudem konnen fur die zusammengesetzten Sequenzen wahrend des 
Verfahrens Wahrscheinlichkeiten fCir ihre "Richtigkeit", bzw. Werte zur 
Fehlerabschatzung bestimmt werden, so daS das Verfahren abbrechen 
kann, sobald ein vorher gesetzter Schwellenwert fur den Fehler 
unterschritten wird. 

5.3.6 Wiederholungen innerhalb der Ausgangssequenz und repetitive 
Sequenzen 

Treten in der Probensequenz Wiederholungen auf, so kann es in dem oben 
beschriebenen Baum aller moglichen Sequenzkombinationen zu einem 
RingschlulS konnmen, der das Zusammensetzen der Sequenzen erschwert. 

Dabei ist die Lange der sich wiederholenden Sequenzabschnitte von 
wesentlicher Bedeutung. Wiederholungen, die kurzer sind als die maximale 
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Sondeniange (bei Verwendung aller 3 Sondentypen), bzw. kiirzer als die 
halbe maximale Sondeniange bei ausschlielSlicher Verwendung des 3. 
Sondentyps, stellen kein Problenn beim Zusammensetzen dar. Treten 
Wiederholungen auf, die langer sind als die oben beschriebenen, die aber 
kurzer als die Gesanntlange der Teilsequenzen minus Lange der POKS, so 
konnen diese durch geschicktes Verschieben der POKS, d.h, durch die Wahl 
eines neuen POKS, der sehr nahe am POKS im Zentrum der Sequenz liegt, 
aufgelost werden, Treten langere Wiederholungen auf, so wird nach ihrem 
Auftreten der Algorithmus zum Zusammensetzen abgebrochen, dadurch 
entstehen mehrere Teilsequenzen von unterschiedlicher Lange, die jeweils 
um die Lange der Wiederholungen uberlappen. Durch den Einsatz anderer 
Verfahren, wie z.B. PGR, oder der Wahl neuer Sondentypen kann der 
Zusammenhang zwischen diesen Teilsequenzen geklart werden. 

Ein moglicher weiterer Ansatz zur Losung der durch Wiederholungen 
bedingten Phanomene ist die Kenntnis uber die ungefahre Lange der 
Ausgangssequenz. Wird bei dem Versuch, die erkannten Teilsequenzen 
zusammenzusetzen, diese Lange deutlich uberschritten, so wurden 
vermutlich Teilsequenzen zu haufig eingebaut. Eine solche Sequenz kann 
nicht als Ergebnis des Verfahrens zugelassen werden. 

Ist es daruber hinaus moglich, durch eine Quantifizierung der nach der 
Hybridisierung erhaltenen Signale eine GroRenordnung fur die Haufigkeit des 
Auftretens jeder Sonde in der Ausgangssequenz festzulegen, so wird die 
Lange der Ausgangssequenz nicht unbedingt als Abbruchkriterium benotigt. 

Auch fur den Fall, da(S in der Probensequenz repetitive Telle auftreten, d.h. 
nicht unterbrochene Wiederholungen relativ kurzer Sequenzen, erieichtert 
die mogliche Quantifizierung der Signale auf den Arrays das 
Zusammensetzen der Sequenz. 
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5.4 Sequenzieren mit langen Sonden 

1st es moglich, die Sondenlangen in dem oben beschriebenen Verfahren 
hinreichend groS zu wahlen, so kann auf den Aufbau der ersten beiden 
5 Sondentypten fur jeden POKS verzichtet werden. Die Sonden l<6nnen dann 
so iang gewahit werden, daB die Wahrscheiniichkeit, fur einen weiteren 
POKS in ihrer Sequenz groli genug ist, urn Oberlappungen zu garantieren. 
Wie oben beschrieben werden fur den nun ausschliefSlich relevanten 3. 
Sondentyp, der die Gegensequenz der gewahlten POKS in der iVIitte der 
Sequenz enthalt, alle Kombinationen einer vorgegebenen Lange erzeugt, 
gegen diese wird hybridisiert und signaliiefernde Sonden werden im 
nachsten Schritt weiter aufgebaut. Dabei ist es moglich, jede Sonde gleich 
in beide Richtungen vom POKS weg zu veriangern, oder abwechseind in die 
eine und dann in die andere, bis die maximal mogliche Lange erreicht wird. 
Je nach Anzahl der Stellpiatze konnen wieder mehrere Iterationsschritte auf 
einem Array abgearbeitet werden. 

Die Verwendung von langen Sonden macht unter Umstanden den Aufbau 
der ersten beiden Sondentypen uberfiOssig. Dies bedeutet eine Reduktion 
der Stellpiatze und somit der benotigten Arrays. Zum anderen konnen 
eventuelle Fehler, die durch die rechnerische Verlangerung der Sonden des 
dritten Typs mit Hilfe der Sonden des ersten und zweiten Typs entstehen, 
ausgeschlossen werden. 

6. Dynamische Sequenzierung durch Hybridisierung (DSBH) mit durch 
Enzym-Erkennungsstellen gewahlten festen Abschnitten (POKS) 

Eine weitere Variante des Verfahrens ist die Integration der POKS bereits in 
die Probenvorbereitung, indem mittels sequenzspezifischen Nukleasen das 
Probenmaterial in entsprechende Fragmente geschnitten wird. Als POKS 
dienen dann automatisch die Basen, die die Nuklease-Erkennungssequenzen 
bilden. 
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6.1.1 Probenvorbereitung 

Die Probenvorbereitung f iir diese Variante des Verf ahrens geht zunachst von 
dsDNA aus. Diese dsDNA kann zum einen als genomische, chromosomale 

5 DNA, als extrachromosomales Element (z.B. als Plasmid) oder als 
Bestandteil von Zellorganelten aus Viren, Bakterien, Tieren, Pflanzen oder 
dem Menschen isoliert werden, zum anderen aber prinzipiell auch in vitro 
durch reverse Transkription, RNaseH-Behandlung und anschlieBende 
Amplifikation (z.B. durch PGR) aus ssRNA erzeugt werden. Als RNA- 

0 Matrizen konnen neben rRNAs, tRNAs, mRNAs und snRNAs auch in vitro 
erzeugte Transkripte (entstanden z.B. durch Transkription mit SP6-, T3- 
oder T7-RNA-Polymerase) eingesetzt werden. 

Die isolierte oder in vitro synthetisierte dsDNA wird dann mit einer 
5 Restriktionsendonuklease oder mit einem Gemisch aus mehreren 
Restriktionsendonukleasen hydrolysiert, wobei doppelstrangige 
Subfragmente mit definierten Anfangs- und/oder Endsequenzen entstehen. 
Anzahl und Lange der entstehenden Subfragmente konnen durch die 
Auswahl geeigneter Enzyme (dies konnen auch durch Proteindesign 
veranderte oder erzeugte Enzyme sein) gesteuert werden. Zur 
Langenfraktionierung konnen der Hydrolyse gelelektrophoretische und/oder 
chromatographische Trennprozesse folgen. Fur die Erzeugung von RNA- 
Subfragmenten konnen Ribozyme eingesetzt werden. 

Die erzeugten Subfragmente werden vorzugsweise nach der Fraktionierung 
markiert. Obwohl die Markierung prinzipiell auch vor der Denaturierung 
moglich ist (z.B. durch das Auffullen 3'-kohasiver Enden mit einer DNA- 
Polymerase), werden die Subfragmente bevorzugt nach der Denaturierung, 
also auf der Ebene einzelstrangiger Subfragmente, markiert. Die Markierung 
erfolgt vorzugsweise mittels fluoreszierender Agenzien (z.B. Fluorescein 
Oder Cy5), moglich sind aber auch andere Markierungsverfahren wie z.B. 
der Einbau radioaktiver Isotope. Die Markierungsgruppen werden 
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hauptsachlich in Form markierter Nukleotid-Derivate an die Subfragmente 
gekoppelt. Die Kopplung am 3'-Terminus kann z.B. durch die T4-RNA-Ligase 
Oder durch die terminale Transferase (unter Verwendung entsprechender 
Nukleotid-Derivate) erfolgen. 

Die markierten, einzelstrangigen Subfragmente konnen dann in einer 
geeigneten Hybridisierungslosung gegen den mit einem Sondenarray 
beschichteten Trager hybridisiert werden. 

6.2 Verfahrensablauf 

Die in geeigneter Weise aufbereitete Probe wird durch ein Schnittenzym in 
moglichst kleine Subfragmente zerlegt. Die komplementare Sequenz zur Nu- 
kleotidabfolge des Schnittenzyms bildet hierbei direkt die POKS Sequenz, 
das bedeutet, die moglichen POKS werden durch die zur Verfugung stehen- 
den Enzyme vorgegeben. Das statistische Verhalten der Fragmentlange und 
-anzahl ist analog zu den frei gewahlten POKS bedingt durch die Ausgangs- 
sequenz und die verwendete Schnittsequenz. 

Die sx) enzymatisch zerkleinerte Probe wird nach der Lange der Subfrag- 
mente sortiert, d.h. fraktioniert. Markierte Subfragmente, welche nicht 
langer als die maximale Sondenlange sind, werden zur Analyse, gemafS be- 
schriebenen Verfahren, auf den Array gegeben. Die Sonden, welche beim 
ersten Array einen Hybridisierungspartner unter den Subfragmenten in der 
Probe gefunden haben, werden entsprechend zyklisch bis zur maximalen 
Sondenlange verlangert. Dadurch werden alle Subfragmente der Ausgangs- 
probe bezuglich ihrer Nukleotidabfolge bestimmt. 

Die langeren Subfragmente werden einem weiteren Probenvorbereitungs- 
zyklus zugefuhrt. Dabei kann es sich wiederum um eine enzymatische 
Fragmentierung, aber auch ein geeignetes Ampiifikationsverfahren oder das 
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vorher beschriebene rein statistische POKS Verfahren und die zugehorige 
Probenvorbereitung handeln. 

Bei Bedarf konnen auch mehrere Enzym POKS gleichzeitig in der 
Probenvorbereitung und in der anschlielSenden zyklischen Arrayanalyse 
eingesetzt werden. Diese Subfragmente konnen durch die enzymatische 
POKS Sequenz am Anfang bzw, Ende der Sonden einwandfrei zugeordnet 
und parallel verfolgt werden. 

Fur den Aufbau der Sonden ergeben sich in dieser Variante des DSBH- 
Verfahrens durch die Vorgabe der Enzymsequenzen zwei Moglichkeiten. 
Zum einen kann die komplette Sequenz an den Enden der Sonden aufgebaut 
werden, zum anderen kann es genugen, nur den Teil der Enzymsequenz 
nach dem Schnittpunkt zu synthetisieren. Tabelle 7 stellt die beiden 
Moglichkeiten am Beispiel einer DNA-Sequenz dar, in der die Sequenz des 
Enzyms Alu I (AGCT) auftritt. Die Schnittstelle dieses Enzyms liegt 
zwischen dem zweiten und dritten Nukleotid. 

Tabelle 7 

5 '-Ende NNNNNNNNNNNNN AG | CT NNNNNNNNIMNNNNN 3 '-Ende 
3 '-Ende NNNNNNNNNNNNN TC | CA NNNNNNNNNNNNNN 5 '-Ende 

Nach der Hydroiyse und der Denaturierung in der Probenvorbereitung erhalt 
man in diesem Fall vier Fragmente, Zwei von ihnen beginnen, in 5 '-3' 
Richtung gelesen, mit den Nukleotiden CT, die beiden anderen Enden auf 
AG. Um die in beiden Richtungen auf die Enzymsequenz folgenden 
Nukleotide erkennen zu konnen, miissen auf dem Array nun die drei oben 
beschriebenen Sondentypen synthetisiert werden, siehe Tabelle 8. 

Im linken Teil der Tabelle 8 wird die komplette Enzymsequenz als POKS 
verwendet, der Aufbau erfolgt vollig analog zur Methode mit statistisch 
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gewahlten POKS. Fur den Aufbau der im rechten Teil dargestellten Sonden 
wird die Enzymsequenz an ihrem Schnittpunkt in zwei Teile zerlegt. Urn die 
im obigen Sequenzbeispiel mit den Nukleotiden CT beginnenden Fragmente 
detektieren zu konnen, werden Sonden nnit dem den Nukleotiden GA am 3 '- 
Ende erzeugt, urn die beiden anderen Fragmente bestimmen zu konnen, 
werden alle Sonden einer vorgegbenen Lange erzeugt, die die Nukleotlde TC 
am 5 '-Ende tragen. Das Hybridisierungsverliaiten auf dem Array mufS fur 
beide Sondentypen glelch sein. Im linken Fall fungieren die Nukleotide TC 
als eine Art Linker. 



Fur die jeweils dritte Sondenarte muG die Probe anders vorbereitet werden. 
Entweder wird die zu untersuchende Sequenz statistisch, z.B. mit 
Ultraschall zerlegt, oder z. B. mit einem Enzym geschnitten, dessen Sequenz 
keiner der zur Probenvorbereitung verwendete Enzymsequenzen entspricht. 



10 



15 



Tabelle 8: 



30 



25 



20 



N 
N 
N 
N 
N 
N 
N 
N 
N 
N 
N 
A 
G 
C 
T 



A 
G 
C 
T 

N 
N 
N 
N 
N 
N 
N 
N 
N 
N 
N 



N 
N 
N 
N 
N 
N 
A 
G 
C 
T 
N 
N 
N 
N 
N 



3'-Ende 



5'-Ende 



N 
N 
N 
N 
N 
N 
N 
N 
N 
N 
N 
N 
N 
A 
G 



C 
T 

N 
N 
N 
N 
N 
N 
N 
N 
N 
N 
N 
N 
N 



N 
N 
N 
N 
N 
N 
A 
G 
C 
T 
N 
N 
ISI 
N 
N 



3'-Ende 



5'-Ende 



Das Zusammensetzen der einzelnen detektierten Fragmente zu einer 
Gesamtsequenz erfolgt analog zur beschriebenen Variante mit statistisch 
gewahlten POKS. 
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Der wesentliche Vorteil der Erzeugung der POKS in der Probenvorbereitung 
durch Schnittenzyme istein niedrigerer Bedarf an Probenmaterial. Durch die 
enzynnatische Zerlegung der Ausgangssequenz entstehen nur Subfragmente 
mit der POKS Sequenz am Ende. Be) einer Ausgangssequenz mit 
beispielsweise 3.000 Basen und einer mittleren Subfragmentlange von 60 
Basen entstehen ca. 500 Subfragmente. Beim Zerlegen der gleichen 
Ausgangssequenz in alle moglichen Subfragmente fur die frei wahibaren 
POKS (aber mit der gleichen Nul<leotidsequenz wie das Enzym sie aufweist) 
entstehen entsprechend 3.000 - 60 + 1 = 2.941 Subfragmente von denen 
nur 500 die POKS Sequenz am Ende aufweisen. Im Vergleich wird fur die 
Enzym POKS also nur 500 / 2.941 = 0.17 entsprechend 17% des 
Probenmaterials benotigt. 

Die wesentlichen Nachteile der enzymatischen POKS sind die notwendige 
Entwickiung der geeigneten Schnittenzyme, die geringe Fiexibilitat und der 
hdherer Aufwand in der Probenvorbereitung. Die Entwickiung der 
entsprechenden Enzyme zum Beispiel mittels Proteindesign ist 
arbeitsaufwendig. Die Bereitstellung in der Probenvorbereitung erhoht den 
logistischen Aufwand im System. AulSerdem mu6 eine zyklische 
Probenvorbereitung mit einer integrierten Langenfraktionierung etabliert 
werden. Diese ist notwendig um die langeren Subfragmente abzutrennen 
und weiter zu zerkleinern. 

Beide Ansatze (frei wahlbare und enzymatische POKS) lassen sich auch 
kombinieren. So konnten statistisch sehr erfoigreiche POKS als Enzyme in 
der Probenvorbereitung bereitgestellt werden. Sind diese Enzym POKS 
verbraucht wird entsprechend mehr amplifiziert und die frei wahibaren POKS 
eingesetzt. 
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7.1 .1 Freigewahlte POKS mit alien 3 Sondentypen 

In diesem Beispiei wird die Sequenzierung einer 3060 Nukleotide langen 
einzeistrangigen Teilsequenz aus dem £.co//Genom mit Hilfe verschiedener 
POKS von drei Nukleotiden Lange simuliert. Die wahrend der Simulation 
erzeugten Daten sind Idealdaten, die mogliche Fehler, wie z, B. moglichen 
Abbruch wahrend der Synthese oder Probleme bei der Signalauswertung 
noch nicht berucksichtigen, 

Mit Hilfe der durch die Simulation des Arrayaufbaus, der Hybridisierung und 
der Signalauswertung erzeugten Daten lafSt sich die Ausgangssequenz 
wieder in ihrer Gesamtheit zusammensetzen. 

Zu Beginn des Verfahrens wird der A-T-, G-C- Gehalt der Sequenz bestimmt. 
Daraufhin wird der POKS mit der hochsten Wahrscheinlichkeit, in diesem 
Fall GCG, als Start-POKS gewahlt. Mit diesem POKS wird die Synthese der 
Sonden auf dem ersten Array simuliert. Dazu werden alle drei Sondentypen 
mit der Gegensequenz zum POKS an den oben naher beschriebenen 
Positionen in den Sonden erzeugt. Der variable Anteil der Sonden hat in 
diesem Beispiei eine Lange von 5 Nukleotiden, fiir jeden Sondentyp werden 
also Stellplatze benotigt, also insgesamt 3072. Um eine eventuell deutlich 
grolSere Anzahl von Stellplatzen auszunutzen, kann es sinnvoll sein, gleich 
zu Beginn langere Sonden zu synthetisieren. 

Nach der Hybridisierung gehen von jeweils 82 Stellplatzen, deren Sonden 
die POKS-Gegensequenz an ihren Enden haben und von 81 Stellplatzen, 
deren Sonden die POKS-Sequenz in der Mitte haben, Signale aus. Auf dem 
nachsten Array werden also insgesamt 980 (82 x4 + 81x44-81 x 4) 
Stellplatze benotigt, um fur jeden signalgebenden Stellplatz vier neue 
Stellplatze mit jeweils um eine Base verlangerten Sonden aufbauen zu 
konnen. 
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An dieser Stelle ist es moglich, gleich mehrere Iterationsschritte auf einem 
Array abzuarbeiten, wenn die Anzahl der vorhandenen Stellplatze 
hinreichend groIS ist. Dazu kann jede relevante Sonde auf dem neuen Array 
um zwei, drei oder mehr Nukleotide erweitert werden. Bei einer 
Verlangerung um zwei Nukleotide werden pro Stellplatz dann 16 neue 
Stellplatze benotigt, bei einer Verlangerung unn drei Nukleotide entsprechend 
64 Stellplatze, bei 4 Nukleotiden 256 Stellplatze, usw. In der Simulation, in 
der die Stellplatzanzahl eine untergeordnete Rolle spielt, wird fur jeden 
Iteratio nsschritt ein neues Array erzeugt. 

Die Sondenlange von insgesanrit 5 + 3 = 8 Nukleotiden ist in diesem Fall 
bereits so spezifisch lang, daS sich die Anzahl der benotigten Stellplatze in 
keinem der folgenden Iterationsschritte deutlich vergroSert, sie pendelt sich 
nach ungefahr 3 Schritten auf 340 Stellplatze pro Sondentyp, also 
insgesamt auf 1020 Stellplatze ein. 

Insgesamt werden die Sonden bis zu einer Lange von 25 Nukleotiden 
aufgebaut, so dafS nach der Auswertung des letzten Arrays alle in der 
Ausgangssequenz auftretenden 22-mere nach und vor dem ersten POKS 
bekannt sind. Mit Hilfe des dritten Sondentyps werden alle moglichen 
Zusammenhange zwischen diesen Teilsequenzen bestimmt, diese 
Sequenzen konnen rechnerisch mit den Sequenzen des ersten und zweiten 
Sondentyps auf jeweils 47 Nukleotide verlangert werden. 

Es ist mit dem dynamischen Arrayauf bau somit gelungen, alle 22-mere nach 
und vor dem POKS zu bestimmen, ohne alle 22-mere {4^^ = 1 ,75921 8604 
X 10'^) erzeugen zu mussen. 

im nachsten Schritt wird in den jetzt bekannten zusammengesetzten 
Teilsequenzen mit dem POKS in der Mitte die POKS-Sequenz rechts und 
links dieses POKS gesucht. Wird die POKS-Sequenz ein zweites Mai in einer 
Teilsequenz gefunden, so wird der entsprechende Abschnitt mit alien 
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Teilsequenzen verglichen, die den POKS in der Mitte haben. Da alle 
Sequenzen urn den POKS nun bekannt sind, muI3 es eine Sequenz geben, 
mit der es eine Uberschneidung gibt. Nach dem ersten POKS gelingt es 
bereits, die erkannten Teilsequenzen zu langeren Sequenzen bis zu 248 

5 Nukleotiden Lange zusammenzusetzen. Durch Auswertung der Enden dieser 
Sequenzen werden zwei neue POKS (CTG, GAA) bestimmt, einer fur jedes 
Ende, mit denen nun wieder Arrays aufgebaut werden. Wie oben wird mit 
einer variablen Lange von 5 Nukleotiden begonnen, die bis zu einer Lange 
von 22 Nukleotiden gesteigert wird. Die Anzahl der benotigten Stellplatze 

0 pendelt sich nach wenigen Zyklen auf 312 pro Sondentyp ein, so dafS pro 
Iterationsschritt insgesamt 936 x 2 Stellplatze benotigt werden. 

Wie gehabt werden in den detektierten Sequenzen die POKS-Sequenzen 
gesucht und diese Sequenzen gegebenenfalis verlangert. Nach den ersten 
5 drei POKS konnen Sequenzteile bis zu einer Lange von 456 Nukleotiden 
zusammengesetzt werden. Um die Sequenz in der vollen Lange erkennen 
und zusammensetzen zu konnen werden noch vier weitere POKS {GCC, 
GAG, TCA, ATC) benotigt, die aus den bisher ausgewerteten Daten und 
einem weiteren Zyklus bestimmt werden. Die Anzahl der in den letzen 
beiden Zyklen (Arrayaufbau, Hybridisierung, iterative Verlangerung der 
Sonden bis zu 25 Nukleotiden) benotigten Stellplatze pro Iterationsschritt 
liegt bei 200 bis 370 Stellplatzen pro Sondentyp. Nach dem letzen Zyklus 
kann die Ausgangssequenz komplett zusammengesetzt werden. 

Die Array-GroBe und die Anzahl der nach jedem Schritt gewahlten POKS ist 
in diesem Beispiel nicht optimiert worden. Es ist moglich, daR eine groSere 
Anzahl von POKS zu Beginn des Verfahrens die Anzahl der benotigten 
Stellplatze / Arrays reduzieren wurde. Zudem erscheint es sinnvoll, auf 
jedem Array mehrere Iterationsschritte auf einmal abzuarbeiten, um die 
Anzahl der verfugbaren Stellplatzen auszunutzen. Geht man in diesem 
Beispiel von einer Array-GrolSe von 400.000 Stellplatzen aus, und optimiert 
das Verfahren, so konnen auf dem ersten Array Sonden mit einem variablen 
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Teil von 8 Nukleotiden aufgebaut, also mit einer Gesamtlange von 1 1 
Nukleotiden. Damit werden die vorhandenen Stellplatze allerdings erst zur 
Halfte ausgenutzt was eine Wahl von zwei POKS zu Beginn sinnvoll 
erscheinen laBt. 

Auch bei einer Ausgangslange von 11 Nukleotiden pro Sonden gehen nur 
von ca. 85 Stellplatzen pro Sondentyp Signale aus, so daR auf dem 
nachsten Array insgesamt 1020 Stellplatze aufgebaut werden mussen. 
Somit konnen auf diesem Array 5 Iterationsschritte abgearbeitet werden, 
dazu werden 261.124 Stellplatze benotigt. Mit zwei weiteren Arrays, auf 
denen wiederum jeweils 1024 Sonden pro signalgebenden Stellplatz des 
Vorgangerarrays aufgebaut werden konnen, lassen sich die relevanten 
Sonden auf jeweils 25 Nukleotide verlangern. Fur den ersten POKS werden 
somit 4 Arrays benotigt; dabei sind die einzelnen Arrays noch nicht ideal 
ausgelastet. 

Um in den nachsten Schritten zwei POKS auf einmal untersuchen zu 
konnen, muS die Anzahl der Iterationsschritte pro Array auf vier reduziert 
werden, so daS fur jedes POKS-Paar insgesamt vier bis fiinf Arrays benotigt 
werden, insgesamt, inklusive der Arrays fur den ersten POKS, also 1 6 bis 
1 9 Arrays. 

Bei Beispielen mit langeren Sequenzen ist zu beobachten, daS die Anzahl 
der benotigten POKS nicht notwendigerweise mit der Lange der Sequenz 
wachst, vielmehr gelingt es z. B. verschiedene Sequenzen von 20.000 
Nukleotiden Lange mit 9 bis 1 1 POKS zusammenzusetzen. Das Verfahren 
wird somit fiir langere Sequenzen immer rentabler. 
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8. Anwendungen 

Das erfindungsgemaGe Verfahren ermoglicht die systematische 
Sequenzanalyse von teilweise oder ganzlich unbekannten Nukleinsauren in 
einer Probe. 

In einer Ausfuhrungsform werden mithilfe des Verfahrens Genome ganz 
Oder teilweise sequenziert. Die Teile konnen durch Auswahl und Isolierung 
einzelner Chromosomen, durch Klonieren genomischer DNA (z.B. in Bacterial 
Artificial Chromosomes BAG oder Yeast Artificial Chromosomes YAC) oder 
durch andere Verfahren generiert werden. 

In einer anderen Ausfuhrungsform werden cDNA-Populationen, die z.B. aus 
einer klonierten Bibliothek oder direkt aus einer isolierten mRNA hergestellt 
sein konnen, ganz oder zum Teil sequenziert. Im Ergebnis handelt es sich 
dann um eine Transkriptom-Sequenzierung. Dies kann bei gleichzeitiger 
Bearbeitung unterschiedlcher Proben aus unterschiedlichen Quellen, z.B. 
Zellen in unterschiedlichem Zustand, so geschehen, daS in einer Variante 
nur solche Sequenzen weiterverfolgt werden, die unterschiedlich sind, in 
einer anderen nur solche, die gleich sind. 

In einer Ausfuhrungsform kann es von Interesse sein, dafS sog. 
Polymorphismen, z.B. Einzelnukleotid-Polymorphismen, identifiziert oder fur 
die Auswahl der POKS verwendet werden, 

Weiterhin kann das erfindungsgemafSe Sequenzierungsverfahren fur 
diagnostische Zwecke, beispielsweise fur eine individualisierte oder 
mehrstufige Diagnostik eingesetzt werden. Das Verfahren eignet sich auch 
zur Entwicklung einer individualisierten, patientenabhangigen 
Medikamentierung bzw. zur patientenabhangigen Entwicklung oder/und 
Modifizierung von pharmazeutischen Substanzen. Das Verfahren kann in 
Verbindung mit einem Netzwerk oder/und einer Datenbank zu einer 
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dezentralen patientennahen Analyse und Identifizierung von 
Krankheitsbildern bzw. Krankheitserregern und deren Mutationen eingesetzt 
werden. AuSerdem ist das Verfahren zur molekularen Diagnostik sowie zur 
vergleichenden Genomik geeignet, z.B. zum Einsatz in der Forschung, zur 
Aufklarung der Funktionalitat von einzelnen Genen oder Genomen von 
Organismen. Das Verfahren kann weiterhin zur Mutationsanalyse, z.B. unter 
anderem zur Untersuchung des Einflusses von beispielsweise 
Umwelteinflussen, Medikamenten, Strahlung oder/und Giften von 
Organismen eingesetzt werden. 
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Anspruche 

Verfahren zur Sequenzierung von Nukleinsauren umfassend die 
Schritte: 

(a) Durchfuhren eines ersten Hybridisierungszyklus umfassend 

(i) Bereitstellen eines Tragers mit einer Oberflache, die an 
einer Vielzahl von vorbestimmten Bereichen 
imnnobilisierte Hybridisierungssonden enthalt, wobeidie 
Hybridisierungssonden in einzelnen Bereichen jeweils 
eine unterschiedliche Basenfolge mit einer 
vorbestimmten Lange aufweisen, 

(ii) Inkontaktbringen einer Probe, die zu sequenzierende 
Nukleinsauren enthalt, mit dem Trager unter 
Bedingungen, bei denen eine Hybridisierung zwischen 
den zu sequenzierenden Nukleinsauren und dazu 
komplementaren Sonden auf dem Trager erfolgen kann, 
und 

(iii) Identifizieren der vorbestimmten Bereiche auf dem 
Trager, an denen eine Hybridisierung in Schritt (ii) 
erfolgt ist, 

(b) Durchfuhren eines nachfolgenden Hybridisierungszyklus 
umfassend: 

(i) Bereitstellen eines weiteren Tragers mit einer 
Oberflache, die an eine Vielzahl von vorbestimmten 
Bereichen ImmobilisierteHybridisierungssonden enthalt, 
wobei die Hybridisierungssonden in einzelnen Bereichen 
jeweils eine unterschiedliche Basenfolge mit einer 
vorbestimmten Lange aufweisen, wobei fur den 
weiteren Trager Hybridisierungssonden mit einer 
Basenfolge ausgewahit warden, bei denen in einem 
vorhergehenden Zyklus eine Hybridisierung beobachtet 
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worden ist, und wobei die ausgewahlten 
Hybridisierungssonden um mindestens ein Nukleotid 
gegenuber einem vorhergehenden Zyklus verlangert 
werden, 

(ii) Wiederholen von Schritt (a) (i) mit dem weiteren Trager, 
und 

(iii) Wiederholen von Schritt (a) (iii) mit dem weiteren 
Trager, und 

(c) gegebenenfalls Durchfuhren von weiteren nachfolgenden 
Hybridisierungszyklen jeweils mit Auswahl und Verlangerung 
und Auswahl der Hybridisierungssonden gemafS Schritt (b) (i), 
bis eine ausreichende Information uber die zu sequenzierenden 
Nukleinsauren vorliegt, 

2. Verfahren nach Anspruch 1, 
dadurch gekennzeichnet, 

daSdiezusequenzierendenNukleinsaurenausdoppelstrangigerDNA, 
einzelstrangiger DNA und RNA ausgewahit werden. 

3. Verfahren nach Anspruch 1 oder 2, 
dadurch gekennzeichnet 

daS die zu sequenzierenden Nukleinsauren vor dem Inkontaktbringen 
mit dem Trager fragmentiert werden, 

4. Verfahren nach Anspruch 3, 
dadurch gekennzeichnet, 

daBdurch die Fragmentierung und gegebenenfalls eine nachfolgende 
Langenfraktionierung Nukleinsaurefragmente mit einer 
vorbestimmten, z.B. im wesentlichen homogenen Langenverteilung 
erzeugt werden. 
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5. Verfahren nach Anspruch 3 oder 4, 
dadurch gekennzeichnet, 

daS die Fragmentierung sequenzunspezifisch erfolgt. 

6. Verfahren nach Anspruch 3 oder 4, 
dadurch gekennzeichnet, 

daS die Fragmentierung sequenzspezifisch erfolgt. 

7. Verfahren nach einem der vorhergehenden Anspruche, 
dadurch gekennzeichnet 

daR die zu sequenzierenden Nukleinsauren Markierungsgruppen, 
insbesondere optisch detektierbare Markierungsgruppen wie 
Fluoreszenz- oder Metallpartikelmarkierungen tragen. 

8. Verfahren nach Anspruch 7, 
dadurch gekennzeichnet, 

dais direkte oder indirekte Markierungen verwendet werden. 

9. Verfahren nach einem der vorhergehenden Anspruche, 
dadurch gekennzeichnet, 

dafS im ersten Hybridisierungszyklus Sonden mit einer Lange s 
ausgewahit werden und alle moglichen 4' Sequenzvariationen an den 
vorbestimmten Bereichen des Tragers erzeugt werden. 

1 0. Verfahren nach einem der vorhergehenden Anspruche, 
dadurch gekennzeichnet, 

dais im ersten Hybridisierungszyklus Sonden mit einer Lange s 
ausgewahit werden, so da(S nach Inkontaktbringen mit der Probe an 
maximal 25% der vorbestimmten Bereiche eine Hybridisierung mit 
den zu sequenzierenden Nukleinsauren erfolgt. 
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1 1 . Verfahren nach einem der vorhergehenden Anspriiche, 
dadurch gekennzeichnet, 

daS im ersten Hybridisierungszyklus Sonden mit einer Lange s so 
ausgewahit warden, da(3 sie mit der Lange m der zu bestimmenden 
Sequenz in folgender Beziehung stehen: 

m < 4"'^ + s - 1 

12. Verfahren nach einem der vorhergehenden Anspriiche, 
dadurch gekennzeichnet 

daS in einem oder mehreren Hy bridisierungszy klen Sonden verwendet 
werden, die neben variablen Abschnitten der Lange n einen oder 
mehrere fiir zumindest einen Teil der Sonden festgewahlte Abschnitte 
der Lange p aufweisen. 

13. Verfahren nach Anspruch 12, 
dadurch gekennzeichnet, 

daS im ersten Hybridisierungszyklus die Lange n des variablen 
Sondenanteils so gewahit wird, dalS alle moglichen 4" 
Sequenzvariationen an den vorbestimmten Bereichen des Tragers 
erzeugt werden. 

14. Verfahren nach Anspruch 12 oder 13, 
dadurch gekennzeichnet, 

daS die Lange p des festgewahlten Abschnitts und die Lange n der 
variablen Abschnitte so ausgewahit werden, daS sie mit der Lange 
m der zu bestimmenden Sequenz in folgender Beziehung stehen: 



m < 4"-^ {4P + P-1) 
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ls. Verfahren nach einem der Anspruche 12 bis 14, 
dadurch gekennzeichnet 

daS die Lange der festgewahlten Abschnitte p 2, 3, oder 4 
Nukleotide betragt. 

16. Verfahren nach einem der Anspruche 12 bis 15, 
dadurch gekennzeichnet, 

daS Sonden verwendet werden ausgewahit aus (1) Sonden mit den 
festgewahlten Abschnitten p am 3'-Ende, (2) Sonden mit 
festgewahlten Abschnitten p am S'-Ende und (3) Sonden mit 
festgewahlten Abschnitten p im Inneren der Sequenz. 

17. Verfahren nach Anspruch 16, 
dadurch gekennzeichnet, 

daS Sonden mit festgewahlten Abschnitten p im Inneren der Sequenz 
verwendet werden. 

18. Verfahren nach Anspruch 16 oder 17, 
dadurch gekennzeichnet, 

daS die Sonden (1), (2) und (3) gemeinsam oder/und nacheinander 
auf dem gleichen Trager oder auf unterschiedlichen Tragern 
eingesetzt werden. 

19. Verfahren nach einem der Anspruche 12 bis 18, 
dadurch gekennzeichnet, 

dafS die festgewahlten Abschnitte p zu Beginn des Verfahrens 
oder/und aufgrund der Resultate von vorhergehenden 
Hybridisierungszyklen festgelegt werden. 



wo 01/40510 



PCT/EPOO/11978 



- 51 - 

20. Verfahren nach einem der Anspruche 12 bis 19, 
dadurch gekennzeichnet, 

daft die festgewahlten Abschnitte willkurlich, aufgrund statistischer 
oder/und aufgrund biochemischer Uberlegungen bestimmt warden. 

21 . Verfahren nach einem der Anspruche 1 2 bis 20, 
dadurch gekennzeichnet, 

dais die festgewahlten Abschnitte aufgrund der Basenfolge von 
Enzynn- oder/und Ribozym-Erkennungssequenzen, z-B. von Nukleasen 
bestimmt werden. 

22. Verfahren nach Anspruch 21, 
dadurch gekennzeichnet, 

dais die Enzyme Restriktionsendonukleasen sind. 

23. Trager fur die Sequenzierung von Nukleinsauren mit einer Oberf lache, 
die an einer Vielzahl von vorbestimmten Bereichen immobilisierte 
Hybridisierungssonden enthalt, wobei die Hybridisierungssonden in 
einzelnen Bereichen je weils eine unterschiedliche Basenfolge mit einer 
vorbestimmten Lange aufweisen, wobei die Hybridisierungssonden 
neben variablen Abschnitten der Lange n einen oder mehrere fiir 
zumindest einen Teil der Sonden festgewahlte Abschnitte der Lange 
p aufweisen konnen. 

24. Trager nach Anspruch 23, 
dadurch gekennzeichnet, 

daS er ein mikrofluidischer Trager ist. 



25. 



Verwendung des Tragers nach Anspruch 23 oder 24 in einem 
Verfahren zur Sequenzierung von Nukleinsauren. 



wo 01/40510 



PCT/EPOO/11978 



- 52- 

26. Verwendung eines Verfahrens nach einem der Anspruche 1 bis 22 
Oder des Tragers nach Anspruch 23 oder 24 zur Sequenzierung von 
Genonnen, Chromosomen, Plasmiden, BACs oder/und YACs. 

27. Verwendung eines Verfahrens nach einem der Anspruche 1 bis 22 
Oder des Tragers nach Anspruch 23 oder 24 zur 
Transkriptomsequenzierung. 

28. Verwendung eines Verfahrens nach einem der Anspruche 1 bis 22 
Oder des Tragers nach Anspruch 23 oder 24 zur Identifizierung von 
Polymorphismen. 



